谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。

性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。增强推理模式Deep Think更将“人类终极考试”推至41%,ARC-AGI- 2 得分45.1%,刷新通用智能评测纪录。

模型发布后,OpenAI CEO Sam Altman在X平台发文祝贺“Gemini3 看起来很不错”,谷歌CEO Sundar Pichai以“🙏”回应;Elon Musk亦在LMArena官方账号留言“确实值得祝贺”,并透露Grok 4. 20 将很快发布。

市场层面,Altman在随后流出的内部备忘录中坦言,谷歌的快速进展可能给OpenAI带来“暂时性经济阻力”,并提醒员工未来外界评价将“相当严峻”,显示Gemini3 的强势表现已加剧硅谷AI竞争格局。