コンピュータ・ユース・エージェント(Computer Use Agent)分野で、最近興奮すべき進展がありました。上海交通大学とSIIの研究チームは、わずか312件の人間による操作トラジェクトを使用して、次世代オープンソースのコンピュータ・ユース・エージェント「PC Agent-E」を開発しました。そのパフォーマンスは241%向上し、著名なClaude3.7Sonnetを上回り、Windowsシステム上で最適化されたモデルとなりました。

AnthropicがClaude Computer Useをリリースした後、コンピュータ・ユース・エージェントの開発は常に注目を集め続けてきました。OpenAIもOperatorを発表し、強化学習技術を用いてエージェントの能力を向上させています。しかし、業界では、このレベルに達するには大量のトラジェクトデータと複雑な強化学習アルゴリズムが必要だという考えが一般的でした。上海交通大学とSIIのチームは、実際の成果でこの意見に反論しました:質の高い少量のデータだけで、エージェントの潜在能力を引き出すことができるのです。

image.png

この研究の鍵は、人間の操作トラジェクトを効果的に活用することにあります。研究チームは、開発したツール「PC Tracker」を使い、たった2人の研究者が1日で312件のリアルな操作トラジェクトを収集しました。これらのトラジェクトにはタスク説明、スクリーンショット、キーボードやマウス操作の詳細な記録が含まれており、データの正確性を確保しました。その後、研究チームは「思考チェーン補完」を行ない、各アクションに背後の思考プロセスを追加することでデータをより完全なものにしました。

さらにモデルのパフォーマンスを向上させるために、チームは「トラジェクト強化」技術を導入しました。Claude3.7Sonnetを使用して、各ステップの操作に対して複数の合理的なアクション決定を合成し、トラジェクトデータの多様性を増加させるとともに、トレーニングの効率を大幅に改善しました。最終的に、PC Agent-EはWindowsAgentArena-V2のテストで優れたパフォーマンスを示し、Claude3.7Sonnetの「拡張思考」モードを超える結果を達成しました。

image.png

この研究の成果は、高品質の少量データを使用して強力なエージェントを訓練することが可能であることを示しています。これにより、将来よりスマートなデジタルエージェントの発展に向けた方向性が明らかになりました。チームは、トラジェクトデータの質を向上させることで、データの必要量を削減し、エージェントの自律性を高めることができると考えています。

論文リンク: https://arxiv.org/abs/2505.13909

コードリンク: https://github.com/GAIR-NLP/PC-Agent-E

モデルリンク: https://huggingface.co/henryhe0123/PC-Agent-E

データリンク: https://huggingface.co/datasets/henryhe0123/PC-Agent-E