在智能體性能評估領域,如何有效地測試其在真實場景中的表現一直是一個亟待解決的問題。儘管市場上已經有多個評估基準試圖解決這一問題,但 Meta 的研究人員認爲,當前的方法仍然不足以真實地反映智能體的適應能力。因此,Meta 推出了一個新的評估平臺 ——Agents Research Environment(ARE)和一個全新的基準模型 Gaia2,以幫助評估智能體在實際應用中的表現。

ARE 的設計初衷是創建一個與現實世界相似的環境,使得智能體能夠在其中進行交互。該環境中的任務是異步進行的,時間也在不斷推移,智能體必須在這種動態約束下調整和執行其任務。ARE 的核心要素包括狀態保持的 API 接口應用、環境集、事件、通知和場景等,用戶可以根據自己的需求自定義測試場景。

Gaia2作爲 ARE 的重要組成部分,側重於測評智能體在複雜環境中的能力。與之前的 Gaia1基準不同,Gaia2不再僅僅關注智能體找到答案的能力,而是評估它們在面對不斷變化的條件、截止日期、API 故障以及模糊指令時的表現。此外,Gaia2還支持多種協議,如 Agent2Agent,以評估智能體之間的協作能力。
Gaia2的評估過程是異步的,即使智能體處於閒置狀態,時間依然在流逝,這使得它能夠測量智能體在接收到新事件時的響應能力。通過在移動環境中進行的1120個任務測試,當前的評估顯示,OpenAI 的 GPT-5在 Gaia2基準上表現出色,位居領先。
除了 Meta 的 Gaia2,市場上還有其他一些嘗試提供真實環境測試的評估平臺,比如 Hugging Face 的 Yourbench、Salesforce 的 MCPEval 和 Inclusion AI 的 Inclusion Arena。這些平臺各有側重,但 Gaia2特別關注智能體的適應能力和處理突發事件的能力,爲企業提供了另一種評估智能體表現的有效方式。
官方博客:https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/
劃重點:
🌟 Meta 推出了新的 Agents Research Environment(ARE)和 Gaia2基準,以提高智能體在真實世界中的適應能力。
📊 Gaia2着重評估智能體在面對變化條件和不確定性的情況下的表現,與之前的基準相比更具實用性。
🤖 Gaia2的評估方法異步進行,並測試智能體在收到新事件時的反應能力,當前 OpenAI 的 GPT-5在測試中表現優異。
