近日,美團 LongCat 團隊正式發佈了一項名爲 VitaBench 的智能體評測基準,旨在針對多交互任務,特別是在複雜生活場景中的應用。VitaBench 的推出爲智能體在真實生活場景中的研發提供了重要基礎設施。
VitaBench 專注於外賣點餐、餐廳就餐和旅遊出行等高頻真實場景,構建了一個包含66個工具的交互式評測環境。評測任務設計涵蓋了從購票到餐廳預訂等多項複雜操作,要求智能體在任務執行過程中進行深度推理、工具調用與用戶互動的綜合表現。
儘管當前領先的推理模型已取得了一定進展,但 LongCat 團隊的研究表明,智能體在複雜跨場景任務中的成功率仍然不足30%,顯示出當前技術與實際應用需求之間的顯著差距。VitaBench 的開發旨在解決這一問題,填補現有智能體評測基準與真實生活場景應用之間的空白。
該基準的設計基於對推理複雜性、工具複雜性和交互複雜性三維度的深入分析。團隊通過將這些維度量化,系統化地衡量智能體在真實場景中的表現。例如,推理複雜度主要通過信息整合的需求、觀察空間的大小以及所需處理的推理點數量來評估;工具複雜度則考慮工具的依賴關係與調用鏈長度;交互複雜度則關注智能體在多輪對話中的應能力。
VitaBench 的構建過程爲兩個階段,首先是框設計工具定義,接是任務創建評估標準制定。這一過程確保了任務的多樣性和複雜性,同時避免了傳統文檔模式的侷限性,使得智能體能夠在沒有冗餘規則的情況下,自主推理和決策。
目前 VitaBench 已全面開源,研究人員和開發者可以通過其官方網站和 GitHub 訪問相關資源。VitaBench 的發佈標誌着智能體評測領域的一個重要里程碑,預計將推動智能體技術在真實生活場景中的進一步應用與發展。
項目主頁:https://vitabench.github.io
論文鏈接:https://arxiv.org/abs/2509.26490
代碼倉庫:https://github.com/meituan-longcat/vitabench
數據集:https://huggingface.co/datasets/meituan- longcat/VitaBench
排行榜:https://vitabench.github.io/#Leaderboard