谷歌正式推出全新 Gemini Embedding2模型。作爲谷歌首個原生多模態嵌入模型,它打破了傳統模型僅支持單一數據類型的侷限,能夠將文本、圖像、視頻、音頻和文檔同時映射到同一個數學向量空間中,從而實現跨媒體的深度理解。
與專注於內容創作的 Gemini3等生成式模型不同,嵌入模型的核心職能是“理解”。它通過將複雜數據轉化爲機器可讀的向量,幫助系統識別語義關係,在搜索精度和上下文關聯上遠超傳統的關鍵詞檢索。

Gemini Embedding2的技術特性與突破:
全能多模態支持:該模型不僅支持文本,還可直接處理 PNG/JPEG 圖像、最長120秒的 MP4/MOV 視頻、原生音頻數據以及最多6頁的 PDF 文檔。
全球化語言理解:支持在全球100種語言中精準識別用戶的語義意圖。
多維度聯合分析:模型可以在單次請求中同時接收“圖像 + 文本”等組合輸入,從而深度分析不同媒介類型之間的內在聯繫。
廣泛的應用場景:新模型將顯著提升檢索增強生成(RAG)、語義搜索、情感分析以及大規模數據聚類的性能。
谷歌在官方博客中舉例稱,在法律訴訟取證等複雜場景下,Gemini Embedding2能在數百萬條跨媒體記錄中快速定位關鍵證據,大幅提升了檢索的精度與召回率。目前,該模型已通過 Gemini API 和 Vertex AI 提供公開預覽。
對於開發者而言,這一更新意味着可以更輕鬆地構建處理複雜現實數據的 AI 應用,讓機器不僅能“看”和“聽”,更能理解不同信息背後的統一邏輯。
