グーグルがGemini Embedding2を発表：ネイティブなマルチモーダル埋め込みモデルでテキスト、画像、音声および動画の意味空間を統一

グーグルは最近、ネイティブなマルチモーダル埋め込みモデル「Gemini Embedding2」を発表しました。このモデルはテキスト、画像、動画、音声、およびPDFドキュメントを同じ意味ベクトル空間に統一的にマッピングでき、複雑なAIデータ処理プロセスを簡略化し、マルチモーダル検索と理解の能力を向上させることを目的としています。これは、グーグルが埋め込み技術分野において単一のテキスト意味表現から統一されたマルチモーダル意味モデリングへの重要な一歩を踏み出したことを示しています。

2025年7月には、100以上の言語をサポートするテキスト埋め込みモデル「gemini-embedding-001」をリリースし、MTEB多言語ランキングで優れた成績を収めました。今回発表されたGemini Embedding2もGeminiアーキテクチャに基づいていますが、機能がさらに拡張され、テキスト、画像、動画、音声、PDFドキュメントの5つのモードを同時に処理できるようになっています。これらを統一されたベクトル空間にマッピングすることで、異なるメディアコンテンツ同士が直接意味比較可能となり、複数のモデルや追加の処理ステップを必要としなくなります。この機能は、意味検索、検索強化生成（RAG）、感情分析、データクラスタリングなどの応用にとって重要です。

入力能力に関しては、新モデルは最大8192トークンのテキストをサポートしており、前バージョンの2048トークンの上限の4倍です。一度のリクエストで最大6枚のPNGまたはJPEG画像、120秒までの動画、最大6ページのPDFドキュメントを処理できます。また、Gemini Embedding2はナチュラルな音声処理をサポートしており、従来の音声認識プロセスを経ずに音声を処理できます。これにより、伝統的な転記プロセスでの情報損失を防ぐことができます。グーグルはまた、「インターリーブ入力（交错入力）」技術を導入し、開発者が一度のリクエストで複数のモードを混合して入力できるようにし、例えば画像とテキストの説明を組み合わせて入力することで、異なるメディア間の意味関係をよりよく捉えることが可能です。

アーキテクチャ面では、モデルは引き続き「Matryoshka表現学習（MRL）」技術を使用し、階層的な情報構造によってベクトル次元を動的に調整します。デフォルトの埋め込み次元は3072であり、1536や768などのオプション設定も提供されており、開発者が検索品質と保存コストの間に柔軟にバランスを取れるようにしています。

グーグルが公表したベンチマークテストによると、Gemini Embedding2はテキスト、画像、動画、音声のタスクにおいてすべてでリードしています。たとえばテキスト—動画検索タスクでは、68.8点を獲得し、Amazon Nova2Multimodal Embeddingsの60.3点とVoyage Multimodal3.5の55.2点を上回っています。またテキスト—画像比較タスクでは、93.4点を記録し、アマゾンのモデルの84.0点を大幅に上回っています。

現在、Gemini Embedding2は「Gemini API」と「Vertex AI」を通じて開発者に公開されており、LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB、Vector Searchなどの主要なフレームワークやベクトルデータベースと統合されています。また、インタラクティブなColabノートブックと軽量なマルチモーダル意味検索デモも提供されており、開発者がモデルの能力を迅速にテストできるようにしています。

グーグルがGemini Embedding2を発表：ネイティブなマルチモーダル埋め込みモデルでテキスト、画像、音声および動画の意味空間を統一

関連推奨

ネットセキュリティ部門は法に基づき、剪映（ジャンヤン）およびジーメイAIなどのプラットフォームの規則に違反する識別表示行為を調査・処罰

ミートゥーのAIエージェントRoboNeoがアリババのマルチモーダル動画生成モデルHappyHorseに接続し、ビデオクリエーション能力を全面的にアップデート

アリババが新しいがん向けAIモデルを発表　大腸がんスクリーニングを支援

フロリダ州検察がOpenAIを対象に調査を拡大、南フロリダ大学の殺人事件に注目

グーグルGeminiのアクティブ型アシスタント「毎日レポート」への名称変更多様なデータソースを深く統合し、スマートな情報を提供

グーグルがGemini Embedding2を発表：ネイティブなマルチモーダル埋め込みモデルでテキスト、画像、音声および動画の意味空間を統一

関連推奨

ネットセキュリティ部門は法に基づき、剪映（ジャンヤン）およびジーメイAIなどのプラットフォームの規則に違反する識別表示行為を調査・処罰

ミートゥーのAIエージェントRoboNeoがアリババのマルチモーダル動画生成モデルHappyHorseに接続し、ビデオクリエーション能力を全面的にアップデート

アリババが新しいがん向けAIモデルを発表 大腸がんスクリーニングを支援

フロリダ州検察がOpenAIを対象に調査を拡大、南フロリダ大学の殺人事件に注目

グーグルGeminiのアクティブ型アシスタント「毎日レポート」への名称変更 多様なデータソースを深く統合し、スマートな情報を提供

アリババが新しいがん向けAIモデルを発表　大腸がんスクリーニングを支援

グーグルGeminiのアクティブ型アシスタント「毎日レポート」への名称変更多様なデータソースを深く統合し、スマートな情報を提供