執筆者 machiko | 11月 21, 2024 | LLM
はじめに 近年、生成AI技術の進化に伴い、LLM(大規模言語モデル)という言葉を耳にする機会が増えています。特にChatGPTの普及により、この技術の注目度は一気に高まりました。しかし、その一方で「LLMは導入コストが高い」「技術者でなければ理解が難しい」といった誤解も多く存在しています。...
執筆者 machiko | 11月 20, 2024 | 生成AI, 画像認識
はじめに 今回は、ChatGPTの画像認識機能について、わかりやすくお話しします。この技術は、ただのAIの枠を超え、テキストと画像をつなげる新しい可能性を開いています。 たとえば、複雑なグラフの画像を入力して「これを説明して」とお願いしたり、写真を送って「この場面を物語にして」と指示することができるのです。ChatGPTはその背景にある高度な画像認識技術と自然言語処理を活用し、ただ単に物を「見ている」だけでなく、それが何であり、どんな意味を持つのかを深く理解します。 ChatGPTの画像認識とは?...
執筆者 machiko | 11月 19, 2024 | 未分類
はじめに AI技術の進化は、私たちの生活や産業のあらゆる場面で大きな影響を与えています。その中でも、画像と自然言語を統合的に処理する「マルチモーダルAI」の分野は、特に注目を集めています。2021年にOpenAIが発表した**CLIP(Contrastive Language–Image Pretraining)**は、この分野の代表的な技術の一つとして位置づけられています。...
執筆者 machiko | 11月 18, 2024 | 生成AI
はじめに 近年、人工知能(AI)の進化は目覚ましく、その中でも特に注目を集めているのが大規模言語モデル(LLM)です。中でもOpenAIが開発するGPTシリーズは、その圧倒的な性能と多機能性で多くのユーザーに利用されています。そして2024年5月、最新モデルであるGPT-4oがリリースされました。...
執筆者 machiko | 11月 15, 2024 | VLM
はじめに VLM(Vision Language Model)は、視覚情報とテキスト情報を同時に処理するマルチモーダルなAI技術です。画像認識AIや大規模言語モデル(LLM)の機能を組み合わせたもので、さまざまな分野での活用が期待されています。例えば、自動運転車の物体検出、Eサイトのレコメンドシステムなど、多岐にわたる用途が検討されています。 このVLMは、デジタル広告、医療画像解析、eコマース、自動運転など、多くのビジネス分野で大きな可能性を持つ技術です。 VLMとLLMとの違い...