OpenAI 的新系統在最近的評估中取得了出色的成績,奪得了聊天機器人排名的第一名。但是,由於評分數量較低,這可能會扭曲評估結果。

QQ20240920-103932.png

根據發佈的概述,這些新系統在所有評估類別中都表現出色,包括整體性能、安全性和技術能力。其中一款專門用於STEM任務的系統與9月初發布的GPT-4o版本一起短暫排名第二,並在技術領域佔據領先地位。

Chatbot Arena是一個用於比較不同系統的平臺,使用超過6,000個社區評分對新系統進行了評估。結果表明,這些新系統在數學任務、複雜提示和編程方面表現優異。

QQ20240920-103553.png

然而,這些新系統獲得的評分遠低於其他成熟系統,如GPT-4o或Anthropic的Claude3.5,每個系統的評論數均不到3,000條。如此小的樣本量可能會扭曲評估並限制結果的重要性。

OpenAI 的新系統在數學和編碼方面表現出色,這是其設計的主要目標。通過在回答之前“思考”更長時間,這些系統旨在爲AI推理樹立新標準。然而,這些系統並非在所有領域都勝過其他系統。許多任務不需要複雜的邏輯推理,有時其他系統的快速響應就足夠了。

Lmsys關於數學模型強度的圖表清楚地顯示,這些新系統的得分超過1360,遠高於其他系統的性能。