Salesforceと南カリフォルニア大学の研究者たちは、コードとグラフィカルユーザーインターフェース(GUI)操作の利点を組み合わせることによって、コンピュータ上で複雑なタスクを実行するAIエージェントの能力を著しく向上させるための画期的な技術「CoAct-1」を開発しました。このハイブリッドアプローチは、従来のGUIエージェントの脆弱性を克服し、より強力でスケーラブルな自動化の道を開きます。

AI音楽 人工知能 (3)

従来のAIエージェントの課題:長時間のタスクと誤ったクリック

現在のコンピュータ用AIエージェントは通常、視覚言語モデル(VLM)を使って画面を認識し、マウスやキーボード操作をシミュレートします。このような「クリック型」エージェントはさまざまなタスクを実行できますが、オフィス生産性ソフトウェアなどのメニューが密集して作業フローが複雑なアプリケーションでは、しばしば不適切です。研究者は、これらの状況において、単一の誤ったクリックやUI要素の誤解が、全体のタスク失敗につながる可能性があると指摘しています。

この課題に対処するために、研究者たちは高次のプランナーを使用してGUIエージェントを強化しようと試みました。しかし、この方法でも、数行のコードで直接的かつ信頼性高く実行できる操作には対応できませんでした。

QQ20250813-104954.png

CoAct-1:マルチエージェント協働のハイブリッドシステム

これらの制約を解決するために、CoAct-1システムが登場しました。そのコアコンセプトは、「GUI操作の直感的な利点と、コードを通じてシステムに直接アクセスする正確性、信頼性、効率性を組み合わせること」です。このシステムは、3つの専門エージェントからなるチームによってタスクを遂行します:

  • 調整者(Orchestrator): 中央の計画者として、ユーザーの全体的な目標をサブタスクに分解し、最も適切なエージェントに割り当てます。

  • プログラマー(Programmer): PythonまたはBashスクリプトの作成と実行を行い、ファイル管理やデータ処理などのバックエンド操作を担当します。

  • GUIオペレーター(GUI Operator): VLMに基づいて、ボタンのクリックやインターフェースのナビゲーションなどのフロントエンドタスクを担当します。

この動的な委任メカニズムにより、CoAct-1は非効率的なGUI操作を回避し、より堅牢で効率的なコード実行を採用しながら、視覚的なインタラクションの必要性を保持することができます。全体のワークフローは反復的で、各エージェントがサブタスクを完了した後、調整者に報告し、次に何を行うかを決定します。

QQ20250813-105039.png

パフォーマンスの飛躍:速く、効率的

研究者たちは、OSWorldベンチマークテストでCoAct-1を試験しました。このベンチマークには、ブラウザ、IDE、オフィスアプリケーションをまたぐ369の実際のタスクが含まれています。その結果、CoAct-1は60.76%の成功率

特に、オペレーティングシステムレベルのタスクや複数アプリケーションのワークフローでは、CoAct-1のパフォーマンス向上が最も顕著でした。さらに、このシステムの効率も大幅に向上し、平均して10.15ステップでタスクを完了することができ、他の優れた純粋なGUIエージェントが必要とする15.22ステップよりもはるかに少なくなっています。研究者によると、少ないステップ数はタスクの完了速度を向上させ、間違いの機会を最小限に抑えることで、より効率的で信頼性の高い自動化を実現します。

研究室から企業へ:潜在的な応用と課題

この技術には企業向けの大きな応用可能性があります。SalesforceのAI研究ディレクターであるRan Xu氏は、カスタマーサポート、セールス探求、自動簿記、マーケティング活動管理など、多くの分野が理想的な事例であると述べました。これらの環境では、API付きとなしのツールを扱う必要があり、CoAct-1はコードと画面を柔軟に活用し、包括的な自動化ソリューションを提供します。

しかし、CoAct-1を研究室から企業環境に移すことは課題もあります。それは、古いソフトウェアへの対応、セキュリティの確保、および人間の監督の必要性です。Xu氏は、代理を適応させるためにサンドボックス環境でトレーニングを行うことが重要であり、悪意のあるコードの実行を防ぐために強力なアクセス制御とセキュリティのバリアを構築する必要があると強調しました。最終的に、近い将来においては、「人の輪(human-in-the-loop)」