就在OpenAI發佈代號“Garlic”的GPT-5. 2 前夕,谷歌搶先一步推出其全新升級的AI研究代理——Gemini Deep Research。這款基於最新Gemini 3 Pro大模型構建的智能體,不僅能夠生成高質量的研究報告,更關鍵的是,它首次通過全新的Interactions API向開發者開放,允許將谷歌的高級研究能力嵌入第三方應用程序中。

這標誌着谷歌正加速佈局“代理式AI”時代——一個人類不再親自搜索信息,而是由AI代理代爲完成複雜信息任務的未來。Gemini Deep Research專爲處理海量信息與超長上下文提示而設計,能高效整合龐雜數據流,適用於盡職調查、藥物毒性安全評估等高要求場景。谷歌表示,該工具將很快集成進Google Search、Google Finance、Gemini App以及廣受學術圈歡迎的NotebookLM等產品中。

爲應對代理式AI在長時間推理任務中極易出現的“幻覺”問題——即大模型憑空編造內容——Gemini 3 Pro特別優化了事實準確性。在多步驟、長時間運行的自主決策鏈條中,哪怕一次錯誤推理都可能讓整份輸出失效,因此模型的可靠性至關重要。

爲了驗證其技術優勢,谷歌還推出了名爲DeepSearchQA的新基準測試,專門評估AI代理在複雜、多跳信息檢索任務中的表現,並已開源該評測集。此外,Gemini Deep Research也在兩個外部權威測試中亮相:一是以刁鑽冷門著稱的“人類終極考試”(Humanity’s Last Exam),二是聚焦瀏覽器自動化任務的BrowserComp。結果顯示,谷歌代理在前兩項測試中領先,但在BrowserComp上略遜於OpenAI的ChatGPT 5 Pro。

諷刺的是,這些對比數據幾乎在發佈當天就失去了時效性——因爲OpenAI緊隨其後正式推出了GPT-5.2,宣稱其在包括自家基準在內的多項測試中全面超越競品,尤其點名擊敗谷歌。這場發佈時點的精準卡位,凸顯出兩大AI巨頭在代理智能賽道上的激烈角力:一方試圖以深度研究能力定義下一代AI助手,另一方則用更通用的推理性能發起反擊。真正的AI代理戰爭,或許纔剛剛開始。