根據第三方AI測試機構Artificial Analysis的數據,評估OpenAI的o1推理模型在七種流行基準測試上需花費2,767.05美元,而其非推理模型GPT-4o僅需108.85美元。這一顯著差異引發了關於AI評估可持續性和透明度的討論。

推理模型,即能夠逐步"思考"問題解決方案的AI系統,雖然在特定領域表現出色,但其基準測試成本遠高於傳統模型。Artificial Analysis評估約十幾個推理模型總計花費了5,200美元,幾乎是分析80多個非推理模型花費(2,400美元)的兩倍。

機器人 人工智能  AI

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

成本差異主要源於推理模型生成的大量標記。例如,o1在測試中生成了超過4400萬個標記,約爲GPT-4o的八倍。隨着基準測試越來越複雜,評估現實世界任務的能力,加上頂級模型每單位標記成本的上漲(如OpenAI的o1-pro每百萬輸出標記收費600美元),獨立驗證這些模型性能變得極其昂貴。

儘管一些AI實驗室爲基準測試機構提供免費或補貼訪問,但專家擔憂這可能損害評估的客觀性。General Reasoning的CEO Ross Taylor質疑:"從科學角度看,如果你發表了一個沒人能用相同模型複製的結果,那它還能算是科學嗎?"