奧數金牌級推理！谷歌發佈新版 Gemini 3 Deep Think：專爲科研而生，性能直逼“人類最後考場”

大模型正從“聊天助手”進化爲真正的“科學家”。2026年2月13日，谷歌正式宣佈對 Gemini3Deep Think 深度思考大模型進行重磅升級。這款模型不再滿足於日常對話，而是將目標鎖定了科學、研究與工程等需要嚴密邏輯推理的高端領域。

科研“推理模式”:挑戰無唯一解的難題

新版 Deep Think 是谷歌開發人員與頂尖科學家深度共創的成果，專門解決真實科研中的痛點:

應對複雜環境:針對邊界模糊、不存在唯一標準答案、且數據雜亂不全的複雜問題進行了深度優化。

擴大開放範圍:從2月12日起，Google AI Ultra訂閱用戶即可在應用中體驗。

開發者嚐鮮:谷歌首次通過 Gemini API 向部分研究人員和企業開放了“早期訪問計劃”。

戰績顯赫:橫掃奧賽與職業基準

在多項被公認爲“地獄級難度”的測試中，Gemini3Deep Think交出了令人驚歎的答卷:

奧數金牌水平:在2025年國際數學奧林匹克（IMO）測試中達到金牌表現，物理與化學奧賽筆試同樣斬獲金牌級評價。

逼近人類極限:在“人類最後考試”（Humanity's Last Exam）中取得48.4% 的成績。

編程天花板:在 Codeforces 競賽編程基準上獲得3455的 Elo 分值，展現出極強的算法與工程建模能力。

從“刷榜”到“落地”:實驗室裏的數字助手

谷歌強調，Deep Think 的研發初衷並非僅僅爲了刷新基準測試數據，而是要真正進入實驗室:

助力工程建模:幫助工程師通過代碼對複雜的物理系統進行高精度建模。

深度數據分析:協助科研人員解釋和挖掘龐大且零散的科學數據。

隨着 Gemini3Deep Think 的全面介入，AI 正在從單純的效率工具轉型爲科研創新的“合夥人”。

騰訊WorkBuddy6月訪問量超2000萬，領跑AI辦公智能體市場

《2026年Q2中國辦公智能體市場洞察報告》顯示，騰訊WorkBuddy在PC端AI原生辦公智能體市場領先，6月訪問量達2097萬次，超過第二、三名的總和。當月市場總訪問量突破6000萬次，行業規模持續擴大。騰訊旗下AI編程智能體CodeBuddy亦居頭部。WorkBuddy可通過自然語言指令完成辦公任務。

阿里新一代大模型千問3. 8 將至：預覽版搶先登陸阿里雲與Qoder，正式版擬近期開源

國內大模型開源節奏持續加快。阿里即將發佈並開源新一代通義千問3.8，預覽版Qwen3.8-Max已率先上線阿里雲Token Plan、Qoder及QoderWork三平臺，用戶可提前體驗其能力邊界，正式版近期推出。此舉進一步推動通義千問家族在開源賽道上的迭代與佈局。

奧數金牌級推理！谷歌發佈新版 Gemini 3 Deep Think：專爲科研而生，性能直逼“人類最後考場”

相關推薦

原“阿里雲開發者”公衆號正式更名爲“千問AI平臺”

中國電信把5G建網交給大模型：規劃效率翻一半，方案准確率站上75%

騰訊WorkBuddy6月訪問量超2000萬，領跑AI辦公智能體市場

Kimi因算力緊缺暫停C端新用戶訂閱，全速推進集羣擴容

阿里新一代大模型千問3. 8 將至：預覽版搶先登陸阿里雲與Qoder，正式版擬近期開源