人工智能(AI)模型的發展速度讓人眼花繚亂,技術開發者們在不斷提升其性能的同時,也引發了用戶對於模型表現真實度的疑慮。爲了解決這一問題,由傑弗裏・辛頓(Geoffrey Hinton)創辦的 Vector Institute 爲人工智能研究推出了《評估現狀研究》。該研究通過互動排行榜對11個頂尖的開放源代碼和閉源模型進行了全面評測,涵蓋了數學、通用知識、編碼、安全性等16個基準。
Vector Institute 的 AI 基礎設施與研究工程經理約翰・威爾斯(John Willes)表示:“研究人員、開發者、監管者和最終用戶可以獨立驗證結果,比較模型性能,並構建自己的基準和評估,從而推動改進和責任的落實。”

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
在這次評估中,表現最好的模型包括 DeepSeek 和 OpenAI 的 o1,而表現較差的模型則是 Command R+,後者在測試中顯示出較低的性能,這主要是因爲其是測試中規模最小且最老的模型。
研究發現,閉源模型在複雜的知識和推理任務中通常表現優於開放源代碼模型,但 DeepSeek 的優秀表現表明開放源代碼模型也能夠保持競爭力。威爾斯指出:“在簡單任務中,這些模型相當有能力,但隨着任務複雜度增加,我們發現推理能力和理解能力大幅下降。”
此外,所有11個模型在評估實際問題解決能力的 “代理性基準” 上都面臨挑戰,特別是在軟件工程和其他需要開放式推理和規劃的任務中,仍有很長的路要走。爲了解決這一問題,Vector Institute 開發了多模態巨量多任務理解(MMMU)基準,評估模型處理圖像和文本的能力。
在多模態理解的評估中,o1展現了 “卓越” 的能力,尤其是在不同格式和難度水平下。而威爾斯強調,當前仍需更多努力以實現真正的多模態系統,能夠統一處理文本、圖像和音頻輸入。
針對評估中的挑戰,威爾斯指出,評估泄露是一個重要問題,即模型在熟悉的評估數據集上表現良好,但在新數據上卻不再出色。他認爲,開發更具創新性的基準和動態評估將是解決這一問題的關鍵。
