隨着人工智能技術的迅速發展,尤其是大型模型的不斷進步,基準測試在評估 AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀,紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估,還引入了動態更新機制,確保測試的有效性和公正性。

image.png

xbench 的推出源於紅杉中國在2022年 ChatGPT 發佈後對 AGI(通用人工智能)進程的關注。隨着智能體(Agent)在各個領域的廣泛應用,傳統的靜態基準測試方法顯得捉襟見肘,難以準確反映模型的實際能力。爲此,xbench 採用了雙軌評估體系:一方面通過構建多維度的測評數據集,追蹤模型的理論能力上限;另一方面則聚焦於智能體的實際落地價值,從而實現對 AI 技術的全面評估。

在具體評估方法上,xbench 採用了長青評估機制,即評估工具會動態更新,以適應技術的快速迭代。這種方法不僅提高了測試的可靠性,也避免了題目泄露等問題,確保了評估的公正性。以往,許多行業內的模型往往因爲題庫泄露而被質疑 “刷榜”,而 xbench 的設計初衷就是爲了消除這種隱患。

除了基礎的評估體系,紅杉中國還在 xbench 中加入了垂直領域智能體的評測方法論,特別是在招聘與營銷領域的應用。隨着 AI 智能體的不斷髮展,深度搜索、信息收集和推理分析等能力成爲通向 AGI 的關鍵。爲了有效評估這些能力,xbench 將特別關注具有思維鏈的多模態模型在生成商用視頻方面的表現,以及在動態更新的應用中,GUI 智能體的可信度等問題。

xbench 的推出不僅爲 AI 智能體的評估建立了新標準,也爲行業提供了一套可持續發展的評估工具,以應對未來 AI 技術的不斷演進。