OpenAI 的新 AI 模型 o1-preview 和 o1-mini 在聊天機器人排名中取得最高分

OpenAI 的新系統在最近的評估中取得了出色的成績，奪得了聊天機器人排名的第一名。但是，由於評分數量較低，這可能會扭曲評估結果。

根據發佈的概述，這些新系統在所有評估類別中都表現出色，包括整體性能、安全性和技術能力。其中一款專門用於STEM任務的系統與9月初發布的GPT-4o版本一起短暫排名第二，並在技術領域佔據領先地位。

Chatbot Arena是一個用於比較不同系統的平臺，使用超過6，000個社區評分對新系統進行了評估。結果表明，這些新系統在數學任務、複雜提示和編程方面表現優異。

然而，這些新系統獲得的評分遠低於其他成熟系統，如GPT-4o或Anthropic的Claude3.5，每個系統的評論數均不到3，000條。如此小的樣本量可能會扭曲評估並限制結果的重要性。

OpenAI 的新系統在數學和編碼方面表現出色，這是其設計的主要目標。通過在回答之前“思考”更長時間，這些系統旨在爲AI推理樹立新標準。然而，這些系統並非在所有領域都勝過其他系統。許多任務不需要複雜的邏輯推理，有時其他系統的快速響應就足夠了。

Lmsys關於數學模型強度的圖表清楚地顯示，這些新系統的得分超過1360，遠高於其他系統的性能。

Thinking Machines推出首個開源大模型Inkling，主打定製化對抗“一刀切”AI

前OpenAI CTO Mira Murati創立的Thinking Machines Lab於2026年7月15日發佈首個開源模型Inkling。該模型採用混合專家架構，總參數量達9750億，單次任務僅激活部分參數，實現高效定製。此舉意在挑戰巨頭主導的閉源AI模式，提供可高度定製的開放權重方案。

GPT-5. 6 智商首破 130 天才線，比99%人類都聰明，實測幹活能力同樣炸裂