谷歌發佈Gemini 3後,其中Gemini 3 Pro以1501 Elo刷新LMArena公開榜單歷史最高分,超越GPT-5.1、Claude 4. 5 與Grok-4.1,成爲目前評分最高的多模態模型。

性能方面,Gemini 3 Pro在“人類終極考試”獲37.5%、GPQA Diamond達91.9%,並在MMMU-Pro與Video-MMMU分別取得81%與87.6%,顯示其在科學、數學及視頻理解任務上全面領先。增強推理模式Deep Think更將“人類終極考試”推至41%,ARC-AGI- 2 得分45.1%,刷新通用智能評測紀錄。

模型發佈後,OpenAI CEO Sam Altman在X平臺發文祝賀“Gemini3 看起來很不錯”,谷歌CEO Sundar Pichai以“🙏”迴應;Elon Musk亦在LMArena官方賬號留言“確實值得祝賀”,並透露Grok 4. 20 將很快發佈。

市場層面,Altman在隨後流出的內部備忘錄中坦言,谷歌的快速進展可能給OpenAI帶來“暫時性經濟阻力”,並提醒員工未來外界評價將“相當嚴峻”,顯示Gemini3 的強勢表現已加劇硅谷AI競爭格局。