近日,OSWorld 團隊正式發佈了 OSWorld-MCP,這是首個針對計算機使用代理產品進行全面評估的基準測試工具。該基準旨在爲開發者和用戶提供真實環境下的產品能力評測,提升了評估的真實度、平衡性與可比性。

image.png

OSWorld-MCP 的主要特性包括:它綜合衡量了模型上下文協議(MCP)工具調用能力、圖形用戶界面(GUI)操作技能以及決策表現。該基準測試包含了158個經過驗證的 MCP 工具,涵蓋了七個常用應用程序,包括 LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 及操作系統實用程序。其中,有25個工具專門用於魯棒性測試,以保證評測的全面性和可靠性。

此外,OSWorld-MCP 還設定了250項工具適用性任務,其中69% 的基準任務受益於 MCP 工具的應用。這些工具的多輪調用設置帶來了決策上的真實挑戰,使得測試結果更具參考價值。根據數據,使用 MCP 工具的模型準確率和效率明顯提升,OpenAI 的 o3模型在進行15步調用後,準確率從8.3% 提升至20.4%。在測試中,Claude-4-Sonnet 模型觀察到的最高工具調用率達到了36.3%,顯示出未來改進的潛力。

該項目的開源特性也爲開發者提供了豐富的資源與說明,促進了技術的共享與合作。有關項目的詳細信息和資源,用戶可以訪問其官方網站和 GitHub 頁面。

OSWorld-MCP 的發佈不僅爲計算機使用代理產品的評估提供了強有力的工具,也爲未來相關技術的發展奠定了基礎。

github:https://github.com/X-PLUG/OSWorld-MCP

劃重點:  

🌟 ** 首個全面評估計算機代理產品的基準測試工具 OSWorld-MCP 正式發佈。**  

🛠️ ** 涵蓋158個經過驗證的 MCP 工具,支持多種常用應用程序。**  

📈 ** 通過多輪調用設置,顯著提升模型的準確率與效率。**