谷歌週四發佈了基於最先進基礎模型Gemini3Pro的"重新構想"版Gemini Deep Research研究代理。這款新型智能體不僅保留了生成研究報告的核心功能,更重要的是通過全新交互API,首次允許開發者將谷歌的SATA模型研究功能嵌入到自己的應用程序中,爲開發者在智能體AI時代提供更大控制權。

功能升級與廣泛應用
這款智能代理能夠整合海量信息並處理提示信息中的大量上下文數據。據谷歌透露,客戶使用該工具執行的任務範圍廣泛,從企業盡職調查到藥物毒性安全研究均有涉及,展現了其在專業領域的實用價值。
谷歌還宣佈,即將把這款深度研究代理集成到旗下多項核心服務中,包括谷歌搜索、谷歌財經、Gemini應用以及廣受歡迎的NotebookLM。這一舉措標誌着谷歌正在推進一個由AI代理代替人類執行搜索任務的未來願景。

技術突破:對抗AI幻覺
谷歌強調,Deep Research受益於Gemini3Pro作爲其"最真實"模型的地位。該模型經過專門訓練,可在執行復雜任務時最大限度地減少幻覺現象。AI幻覺——即大語言模型隨意編造信息——對於需要在幾分鐘、幾小時甚至更長時間內做出許多自主決策的長時間運行深度推理任務而言,是一個尤爲關鍵的問題。即使只有一個幻覺性的選擇,也可能導致整個輸出結果無效。
基準測試表現
爲證明技術進展,谷歌創建了名爲DeepSearchQA的新基準測試並已開源,專門測試智能體在複雜多步驟信息檢索任務中的表現。谷歌還測試了"人類最後考試深度研究"(Humanity's Last Exam)這一檢驗通用知識的基準測試,以及基於瀏覽器的智能體任務基準測試BrowserComp。
測試結果顯示,谷歌的新智能體在自研基準測試和Humanity基準測試中擊敗了競爭對手。不過OpenAI的ChatGPT5Pro表現令人驚喜,在所有測試項目中緊隨其後,並在BrowserComp測試中略勝一籌。

市場競爭白熱化
但這些對比幾乎立刻過時。就在同一天,OpenAI發佈了備受期待的GPT5.2(代號Garlic)。OpenAI表示,其最新模型在一系列典型基準測試中均優於競爭對手,尤其是谷歌,包括OpenAI自研的基準測試。
此次公告最引人注目之處在於其發佈時機。谷歌深知全世界都在翹首期盼Garlic的發佈,於是也同步發佈了這項AI新消息,凸顯了科技巨頭間在AI領域的激烈競爭態勢。
