正文

谷歌發佈首個原生多模態嵌入模型 Gemini Embedding 2：讓機器真正“讀懂”世界

發布於AI新閒資訊

時間 :Mar 11, 2026

閱讀 :1分鐘

谷歌正式推出全新 Gemini Embedding2模型。作爲谷歌首個原生多模態嵌入模型，它打破了傳統模型僅支持單一數據類型的侷限，能夠將文本、圖像、視頻、音頻和文檔同時映射到同一個數學向量空間中，從而實現跨媒體的深度理解。

與專注於內容創作的 Gemini3等生成式模型不同，嵌入模型的核心職能是“理解”。它通過將複雜數據轉化爲機器可讀的向量，幫助系統識別語義關係，在搜索精度和上下文關聯上遠超傳統的關鍵詞檢索。

Gemini Embedding2的技術特性與突破:

全能多模態支持:該模型不僅支持文本，還可直接處理 PNG/JPEG 圖像、最長120秒的 MP4/MOV 視頻、原生音頻數據以及最多6頁的 PDF 文檔。
全球化語言理解:支持在全球100種語言中精準識別用戶的語義意圖。
多維度聯合分析:模型可以在單次請求中同時接收“圖像 + 文本”等組合輸入，從而深度分析不同媒介類型之間的內在聯繫。
廣泛的應用場景:新模型將顯著提升檢索增強生成（RAG）、語義搜索、情感分析以及大規模數據聚類的性能。

谷歌在官方博客中舉例稱，在法律訴訟取證等複雜場景下，Gemini Embedding2能在數百萬條跨媒體記錄中快速定位關鍵證據，大幅提升了檢索的精度與召回率。目前，該模型已通過 Gemini API 和 Vertex AI 提供公開預覽。

對於開發者而言，這一更新意味着可以更輕鬆地構建處理複雜現實數據的 AI 應用，讓機器不僅能“看”和“聽”，更能理解不同信息背後的統一邏輯。

谷歌 YouTube TV 引入 AI 精準投放：30 秒強制廣告全面上線

谷歌旗下YouTube TV在全球推出30秒不可跳過廣告，通過AI系統智能調度，優化廣告變現效率，標誌着智能電視商業模式向傳統廣播模式靠攏。

a16z報告顯示，全球生成式AI應用市場快速擴張，ChatGPT保持統治地位，其網頁和移動端流量遠超競爭對手Gemini，周活躍用戶達5億，全球超10%人口每週使用。

a16z發佈生成式AI應用榜單顯示，ChatGPT仍居榜首，但中國AI應用正快速崛起。DeepSeek位列全球第四，成爲排名最高的中國應用，Kimi、阿里千問等也表現突出，顯示中國AI在全球市場競爭力增強。

2026年3月11日，謝賽寧團隊發佈全球首個多人視頻世界模型Solaris，實現從“單人單視角”到“多人交互世界”的跨越。其核心技術基於崑崙天工開源架構，引入多人自注意力層，顯著提升了建築一致性，驗證了多玩家在虛擬世界中的協同感知能力。

OpenAI收購初創公司Promptfoo，強化AI安全佈局。這家成立於2024年的公司專注於AI應用評測與安全，擁有23人團隊和35萬開發者用戶，估值達8600萬美元。收購將幫助OpenAI彌補智能體安全方面的不足，應對AI智能體快速發展帶來的安全挑戰。

智啟未來，您的人工智能解決方案智庫