紅杉中國推出全新 AI 基準測試工具，助力智能體評估新標準

隨着人工智能技術的迅速發展，尤其是大型模型的不斷進步，基準測試在評估 AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀，紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估，還引入了動態更新機制，確保測試的有效性和公正性。

xbench 的推出源於紅杉中國在2022年 ChatGPT 發佈後對 AGI（通用人工智能）進程的關注。隨着智能體(Agent)在各個領域的廣泛應用，傳統的靜態基準測試方法顯得捉襟見肘，難以準確反映模型的實際能力。爲此，xbench 採用了雙軌評估體系:一方面通過構建多維度的測評數據集，追蹤模型的理論能力上限;另一方面則聚焦於智能體的實際落地價值，從而實現對 AI 技術的全面評估。

在具體評估方法上，xbench 採用了長青評估機制，即評估工具會動態更新，以適應技術的快速迭代。這種方法不僅提高了測試的可靠性，也避免了題目泄露等問題，確保了評估的公正性。以往，許多行業內的模型往往因爲題庫泄露而被質疑 “刷榜”，而 xbench 的設計初衷就是爲了消除這種隱患。

除了基礎的評估體系，紅杉中國還在 xbench 中加入了垂直領域智能體的評測方法論，特別是在招聘與營銷領域的應用。隨着 AI 智能體的不斷髮展，深度搜索、信息收集和推理分析等能力成爲通向 AGI 的關鍵。爲了有效評估這些能力，xbench 將特別關注具有思維鏈的多模態模型在生成商用視頻方面的表現，以及在動態更新的應用中，GUI 智能體的可信度等問題。

xbench 的推出不僅爲 AI 智能體的評估建立了新標準，也爲行業提供了一套可持續發展的評估工具，以應對未來 AI 技術的不斷演進。

紅杉中國推出全新 AI 基準測試工具，助力智能體評估新標準

相關推薦

15 歲少年利用AI實施勒索攻擊，致知名平臺全站停服

騰訊混元Hy3發佈：Agent能力和產品體驗躍升

8 小時追平、 2 天反超：面壁智能 ForgeTrain 如何用 AI“鍛造”下一代訓練框架？

全球首例AI智能體勒索攻擊浮出水面：無需人類干預的自動化“作案”鏈條

百年超導競賽迎來AI破局： 28 小時精準篩選，鎖定四種全新材料