グーグルは最近、ネイティブなマルチモーダル埋め込みモデル「Gemini Embedding2」を発表しました。このモデルはテキスト、画像、動画、音声、およびPDFドキュメントを同じ意味ベクトル空間に統一的にマッピングでき、複雑なAIデータ処理プロセスを簡略化し、マルチモーダル検索と理解の能力を向上させることを目的としています。これは、グーグルが埋め込み技術分野において単一のテキスト意味表現から統一されたマルチモーダル意味モデリングへの重要な一歩を踏み出したことを示しています。

QQ20260312-085930.jpg

2025年7月には、100以上の言語をサポートするテキスト埋め込みモデル「gemini-embedding-001」をリリースし、MTEB多言語ランキングで優れた成績を収めました。今回発表されたGemini Embedding2もGeminiアーキテクチャに基づいていますが、機能がさらに拡張され、テキスト、画像、動画、音声、PDFドキュメントの5つのモードを同時に処理できるようになっています。これらを統一されたベクトル空間にマッピングすることで、異なるメディアコンテンツ同士が直接意味比較可能となり、複数のモデルや追加の処理ステップを必要としなくなります。この機能は、意味検索、検索強化生成(RAG)、感情分析、データクラスタリングなどの応用にとって重要です。

入力能力に関しては、新モデルは最大8192トークンのテキストをサポートしており、前バージョンの2048トークンの上限の4倍です。一度のリクエストで最大6枚のPNGまたはJPEG画像、120秒までの動画、最大6ページのPDFドキュメントを処理できます。また、Gemini Embedding2はナチュラルな音声処理をサポートしており、従来の音声認識プロセスを経ずに音声を処理できます。これにより、伝統的な転記プロセスでの情報損失を防ぐことができます。グーグルはまた、「インターリーブ入力(交错入力)」技術を導入し、開発者が一度のリクエストで複数のモードを混合して入力できるようにし、例えば画像とテキストの説明を組み合わせて入力することで、異なるメディア間の意味関係をよりよく捉えることが可能です。

QQ20260312-085920.jpg

アーキテクチャ面では、モデルは引き続き「Matryoshka表現学習(MRL)」技術を使用し、階層的な情報構造によってベクトル次元を動的に調整します。デフォルトの埋め込み次元は3072であり、1536や768などのオプション設定も提供されており、開発者が検索品質と保存コストの間に柔軟にバランスを取れるようにしています。

グーグルが公表したベンチマークテストによると、Gemini Embedding2はテキスト、画像、動画、音声のタスクにおいてすべてでリードしています。たとえばテキスト—動画検索タスクでは、68.8点を獲得し、Amazon Nova2Multimodal Embeddingsの60.3点とVoyage Multimodal3.5の55.2点を上回っています。またテキスト—画像比較タスクでは、93.4点を記録し、アマゾンのモデルの84.0点を大幅に上回っています。

現在、Gemini Embedding2は「Gemini API」と「Vertex AI」を通じて開発者に公開されており、LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB、Vector Searchなどの主要なフレームワークやベクトルデータベースと統合されています。また、インタラクティブなColabノートブックと軽量なマルチモーダル意味検索デモも提供されており、開発者がモデルの能力を迅速にテストできるようにしています。

QQ20260312-085906.jpg