正文

OSWorld-MCP：全新評測基準助力計算機代理產品發展

發布於AI新閒資訊

時間 :Nov 5, 2025

閱讀 :1分鐘

近日，OSWorld 團隊正式發佈了 OSWorld-MCP，這是首個針對計算機使用代理產品進行全面評估的基準測試工具。該基準旨在爲開發者和用戶提供真實環境下的產品能力評測，提升了評估的真實度、平衡性與可比性。

OSWorld-MCP 的主要特性包括:它綜合衡量了模型上下文協議（MCP）工具調用能力、圖形用戶界面(GUI)操作技能以及決策表現。該基準測試包含了158個經過驗證的 MCP 工具，涵蓋了七個常用應用程序，包括 LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 及操作系統實用程序。其中，有25個工具專門用於魯棒性測試，以保證評測的全面性和可靠性。

此外，OSWorld-MCP 還設定了250項工具適用性任務，其中69% 的基準任務受益於 MCP 工具的應用。這些工具的多輪調用設置帶來了決策上的真實挑戰，使得測試結果更具參考價值。根據數據，使用 MCP 工具的模型準確率和效率明顯提升，OpenAI 的 o3模型在進行15步調用後，準確率從8.3% 提升至20.4%。在測試中，Claude-4-Sonnet 模型觀察到的最高工具調用率達到了36.3%，顯示出未來改進的潛力。

該項目的開源特性也爲開發者提供了豐富的資源與說明，促進了技術的共享與合作。有關項目的詳細信息和資源，用戶可以訪問其官方網站和 GitHub 頁面。

OSWorld-MCP 的發佈不僅爲計算機使用代理產品的評估提供了強有力的工具，也爲未來相關技術的發展奠定了基礎。

github:https://github.com/X-PLUG/OSWorld-MCP

劃重點:
🌟 ** 首個全面評估計算機代理產品的基準測試工具 OSWorld-MCP 正式發佈。**
🛠️ ** 涵蓋158個經過驗證的 MCP 工具，支持多種常用應用程序。**
📈 ** 通過多輪調用設置，顯著提升模型的準確率與效率。**

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

NVIDIA推出Nemotron3Embed嵌入向量模型系列，專爲生產級RAG、智能體檢索、代碼檢索和記憶場景設計。8B版本在RTEB基準測試中排名第一，成爲性能最強的開源嵌入模型。系列包含三個開放檢查點：精度優先的Nemotron-3-Embed-8B-BF16、輕量化的1B-BF16版，以及針對Blackwell架構優化的1B-NVFP4四比特版本，所有模型均採用雙向注意力機制。

Jul 17, 2026

175.1k