最近、OSWorldチームは正式にOSWorld-MCPをリリースしました。これは、コンピュータ使用代理製品の全面的な評価を行うための最初のベンチマークツールです。このベンチマークは、開発者やユーザーが現実的な環境での製品能力を評価できるようにし、評価の現実性、バランス、および比較可能性を高めています。

image.png

OSWorld-MCPの主な特徴には、モデルの文脈プロトコル(MCP)ツール呼び出し能力、グラフィカルユーザーインターフェース(GUI)操作スキル、および意思決定のパフォーマンスを総合的に測定することです。このベンチマークテストには、検証済みのMCPツールが158個含まれており、LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC、およびオペレーティングシステムユーティリティなど、7つの一般的なアプリケーションがカバーされています。そのうち25個のツールは耐障害性テストに専用されており、評価の完全性と信頼性を保証しています。

また、OSWorld-MCPは250項目のツール適用タスクを設定しており、そのうち69%のベンチマークタスクではMCPツールの応用が役立ちます。これらのツールの複数ラウンドの呼び出し設定により、現実的な意思決定の課題が生じ、テスト結果がより参考になります。データによると、MCPツールを使用するモデルの正確性と効率は明らかに向上しています。OpenAIのo3モデルは15ステップの呼び出し後に正確性が8.3%から20.4%まで上昇しました。テストでは、Claude-4-Sonnetモデルが観測した最高のツール呼び出し率は36.3%に達し、今後の改善の可能性を示しています。

このプロジェクトのオープンソースの特性により、開発者は豊富なリソースと説明を提供され、技術の共有と協力を促進しています。プロジェクトの詳細情報とリソースについては、公式ウェブサイトやGitHubページをご覧ください。

OSWorld-MCPのリリースは、コンピュータ使用代理製品の評価に強力なツールを提供するだけでなく、関連技術の将来の発展にも基盤を築くものです。

github:https://github.com/X-PLUG/OSWorld-MCP

ポイント:  

🌟 ** コンピュータエージェント製品の全面的な評価を行うベンチマークツールOSWorld-MCPが正式にリリースされました。**  

🛠️ ** 検証済みのMCPツール158個を含み、多数の一般的なアプリケーションをサポートしています。**  

📈 ** 複数ラウンドの呼び出し設定により、モデルの正確性と効率を大幅に向上させました。**