人工智能(AI)的能力正在飛速發展,如何準確衡量其“智能”程度一直是行業關注的焦點。然而,正如衡量人類智力一樣,AI智能的測評也並非易事,現有的測試和基準往往只能提供近似的評估。近年來,隨着AI模型日益複雜,傳統基準的侷限性日益凸顯,促使行業積極探索更全面、更能反映實際應用能力的新型評估體系。
傳統基準的侷限性:高分≠高能
長期以來,生成式AI社區依賴諸如MMLU(大規模多任務語言理解)等基準來評估模型能力。這類基準通常採用多項選擇題形式,覆蓋多個學術領域,便於進行直接比較。然而,這種形式被認爲難以真正捕捉AI的智能能力。例如,一些模型在MMLU上取得了相似的分數,但在實際應用中的表現卻存在顯著差異,這表明紙面上的高分並不能完全代表真實的能力。
此外,即使是像大學入學考試這樣的基準,其高分也並不意味着考生擁有相同的智力水平,或者智力已經達到了極限,這進一步說明了基準只是能力的近似衡量,而非精確度量。更令人擔憂的是,一些先進的模型在看似簡單的任務上也會出現“低級錯誤”,例如無法正確數出單詞中的特定字母,或者在比較小數大小時出錯。這些案例暴露了傳統基準驅動的進步與AI在現實世界中的可靠性之間的脫節。
新基準亮相:聚焦通用推理與實際應用
面對傳統基準的不足,AI行業正在積極探索新的評估框架。近期發佈的ARC-AGI基準旨在推動模型向通用推理和創造性問題解決能力發展,受到了業界的歡迎。另一項引人注目的新基準是“人類最後考試”,它包含了3000道同行評審的多步驟問題,涵蓋多個學科,試圖在專家級推理上挑戰AI系統。早期結果顯示,OpenAI的模型在該測試發佈一個月內就取得了26.6%的成績,展現了AI的快速進步。
然而,與傳統基準類似,“人類最後考試”主要在孤立的環境中評估知識和推理能力,而忽略了實際應用中日益重要的工具使用能力。GPT-4在配備工具的情況下,在更復雜的GAIA基準上僅取得了約15%的成績,這進一步印證了傳統基準與實際能力之間的差距。
GAIA基準:衡量AI現實應用能力的新標準
爲了彌補傳統基準的缺陷,行業推出了更貼近現實應用的GAIA基準。GAIA由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT團隊合作創建,包含466個精心設計的問題,分爲三個難度級別。這些問題全面測試了AI的網絡瀏覽、多模態理解、代碼執行、文件處理和複雜推理等關鍵能力,這些都是AI在現實商業應用中不可或缺的。
GAIA基準的問題設計模擬了實際業務問題的複雜性。Level1的問題需要大約5個步驟和一個工具來解決,Level2需要5到10個步驟和多個工具,而Level3的問題則可能需要多達50個離散步驟和任意數量的工具。這種結構更真實地反映了現實世界中解決問題往往需要多個步驟和工具協同工作的特點。
GAIA初步成果:強調靈活性與專業化
GAIA基準的早期結果顯示,一個注重靈活性的AI模型取得了75%的準確率,超越了微軟的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。該模型的成功歸功於其採用了結合音頻-視覺理解和推理的專用模型,並以Anthropic的Sonnet3.5作爲主要模型。
GAIA的出現反映了AI評估領域的一個更廣泛的轉變:我們正從評估獨立的軟件即服務(SaaS)應用轉向評估能夠協調多個工具和工作流程的AI智能體。隨着企業越來越依賴AI系統處理複雜的、多步驟的任務,像GAIA這樣的基準能夠提供比傳統多項選擇題更具實際意義的能力衡量。
基準入口:https://huggingface.co/gaia-benchmark