2023年7月15日,谷歌在凌晨1點正式發佈了首個 Gemini 嵌入模型,該模型在多文本嵌入基準測試平臺(MTEB)上以68.37的高分名列第一,超越了 OpenAI 的58.93分。這一成績不僅展示了谷歌在嵌入技術上的領先地位,也爲獨立創作者和自由職業者提供了更爲經濟的選擇:Gemini 嵌入模型的使用成本僅爲每100萬 token0.15美元。

image.png

Gemini 嵌入模型的強大功能

根據測試結果,Gemini 嵌入模型在雙語挖掘、分類、聚類、指令檢索、多標籤分類、配對分類、重排、檢索和語義文本相似性等多項任務中表現出色,成爲當前最強的嵌入模型。其多語言能力使其在全球範圍內的應用更具潛力,特別是在大量非英語母語用戶中。

模型架構與技術創新

Gemini 嵌入模型基於雙向 Transformer 編碼器架構設計,保留了 Gemini 模型的雙向注意力機制,充分發揮了其預訓練的語言理解能力。該模型在底層32層 Transformer 的基礎上,添加了一個池化層,用於聚合輸入序列的每個 token 嵌入,生成單一的嵌入向量。採用的均值池化策略簡單有效,增強了模型的適應性。

image.png

訓練方法與數據質量控制

在訓練過程中,Gemini 嵌入模型採取了多階段的訓練策略,分爲預微調和精調兩個階段。在預微調階段,模型使用大規模 Web 語料庫中的數據進行訓練,主要目標是將參數從自迴歸生成任務適應到編碼任務。精調階段則針對特定任務的數據進行更精細的訓練,確保模型在檢索、分類、聚類等任務中的高效表現。

爲提高數據質量,研究團隊設計了合成數據生成策略,並利用 Gemini 對訓練數據進行過濾,去除低質量樣本,確保模型在訓練中的有效性。

Gemini 嵌入模型的發佈標誌着谷歌在嵌入技術上的一次重要進步,增強了其在人工智能領域的競爭力。隨着這一模型的推廣,預計將推動搜索、個性化推薦等多種應用的發展。

體驗地址:https://aistudio.google.com/prompts/new_chat

官方博客:https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/