本日、X-PLUGチームはGitHub上で最新のプロジェクトであるMobile-Agent-v3を正式にリリースしました。これはGUI-Owlを基盤とするクロスプラットフォームのマルチエージェントフレームワークです。Mobile-Agent-v3は強力な計画、進捗管理、反省および記憶機能を持ち、ユーザーのGUI自動化体験を向上することを目的としています。
GUI-OwlはMobile-Agent-v3のベースモデルであり、知覚、基礎、推論、計画、実行などの複数の機能を統合したネイティブなエンドツーエンドのマルチモーダルエージェントです。その設計により、クロスプラットフォームのインタラクションや複数ラウンドの意思決定がよりスムーズになり、明確な中間推論能力を備えています。これはユーザーが複数のタスクを処理する際、より安定したパフォーマンスを得られることを意味しています。

X-PLUGチームは特に、Mobile-Agent-v3が機能面で最適化されているだけでなく、異常処理と反省能力も強化されており、ポップアップや広告などの干渉に対しても効率的な操作を維持できると述べています。さらに、Mobile-Agent-v3のキーデータ記録機能により、アプリケーション間のタスク実行がより簡単にされ、ユーザーの日常作業にとって非常に便利です。
また、Mobile-Agentのいくつかの前バージョンであるMobile-Agent-v2やPC-Agentは、それぞれNeurIPS2024およびICLR2025で採択されたことから、このプロジェクトが学術研究分野において広範な影響力を持っていることが示されています。
注目すべきは、X-PLUGチームが技術レポート、デモビデオ、コードベースなど豊富なリソースを提供していることで、開発者や研究者がMobile-Agentの潜在能力をより深く探求できるようにしている点です。これらのリソースを通じて、ユーザーはMobile-Agentの強力な機能を体験するだけでなく、その後の開発や最適化に参加することもできます。
アドレス:https://github.com/X-PLUG/MobileAgent
