推理AI模型基準測試成本激增:評估一個或需近3000美元

根據第三方AI測試機構Artificial Analysis的數據，評估OpenAI的o1推理模型在七種流行基準測試上需花費2，767.05美元，而其非推理模型GPT-4o僅需108.85美元。這一顯著差異引發了關於AI評估可持續性和透明度的討論。

推理模型，即能夠逐步"思考"問題解決方案的AI系統，雖然在特定領域表現出色，但其基準測試成本遠高於傳統模型。Artificial Analysis評估約十幾個推理模型總計花費了5，200美元，幾乎是分析80多個非推理模型花費（2，400美元）的兩倍。

機器人人工智能 AI

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

成本差異主要源於推理模型生成的大量標記。例如，o1在測試中生成了超過4400萬個標記，約爲GPT-4o的八倍。隨着基準測試越來越複雜，評估現實世界任務的能力，加上頂級模型每單位標記成本的上漲（如OpenAI的o1-pro每百萬輸出標記收費600美元），獨立驗證這些模型性能變得極其昂貴。

儘管一些AI實驗室爲基準測試機構提供免費或補貼訪問，但專家擔憂這可能損害評估的客觀性。General Reasoning的CEO Ross Taylor質疑:"從科學角度看，如果你發表了一個沒人能用相同模型複製的結果，那它還能算是科學嗎?"

Liquid AI 發佈 1.2B 推理模型：不到 1GB 內存，手機端側即可運行“思考”模式

Liquid AI推出LFM2.5-1.2B-Thinking推理模型，擁有12億參數，專爲複雜邏輯推理和數學任務設計。該模型在端側部署上實現突破，僅佔用約900MB內存，可在現代手機上完全離線運行，將兩年前需數據中心支持的推理能力成功遷移至個人移動設備。

OpenAI 被指 “暗箱操作”，付費用戶遭遇模型降級

OpenAI近日因祕密切換模型引發爭議。付費用戶反映，在未獲通知的情況下，其GPT-4/5被自動替換爲低算力過濾模型gpt-5-chat-safety和gpt-5-a-t-mini，尤其在涉及敏感內容時響應質量驟降。此舉遭用戶質疑侵犯選擇權與知情權，凸顯平臺透明度不足的問題。

OpenAI 發佈 GPT-5.4系列:百萬級上下文窗口，Pro 與 Thinking 版同步登場