マイクロソフト研究所は正式に Magentic-UI をオープンソースとして公開しました。これは人を中心とした AI エージェントの研究プロトタイプであり、ウェブブラウザを通じてユーザーに複雑なネットワークトスクをリアルタイムで支援することを目的としています。

image.png

Magentic-UI は、マイクロソフトが以前に発表した Magentic-One マルチエージェントシステムと AutoGen フレームワークに基づいており、透明性、コントロール可能性、そして人機間協力を強調しています。これにより、ユーザーと研究者にとって強力なプラットフォームを提供し、AI エージェントの相互作用や監督メカニズムを探究する機会を提供します。この記事では、AIbase の視点から Magentic-UI の主要機能、技術的な特徴、そして潜在的な応用価値について詳しく解説します。

Magentic-UI は、完全自律型の AI ツールとは異なり、ユーザーをタスク実行の中心に据え、透明性とコントロール可能性を重視しています。これにより、自動化の過程でユーザーが常に主導権を握ることができるようになります。Magentic-UI は、ユーザーが計画エディターまたはテキストフィードバックを使用して AI の実行計画を直接修正できることを可能にし、タスク開始前に各ステップの操作を明確にすることができます。このような協調計画 (co-planning) メカニズムは、ユーザーに AI の行動意図を明確に理解させ、従来の「ブラックボックス」的な操作による不確定性を回避します。

さらに、Magentic-UI には、感度の高い操作にはユーザーの明確な承認が必要となる「アクションガード (action guards)」機能が導入されています。また、ユーザーは承認頻度を独自にカスタマイズできるため、安全性と柔軟性を確保できます。システムは Docker サンドボックス技術を使用して実行環境を隔離しており、ホスト環境への予期せぬ影響を防ぎます。さらに、ウェブサイトホワイトリストメカニズムにより、AI がアクセスできる範囲を制限し、さらなるセキュリティを確保します。マイクロソフトによると、Magentic-UI はレッドチーム評価を通過し、クロスサイトスクリプティングインジェクションやフィッシング攻撃など、複数の脅威に対抗しています。

マルチエージェントの協働で複雑なタスクを効率的に処理

Magentic-UI の核となるのは、2024年に発表された Magentic-One システムに基づくマルチエージェントアーキテクチャであり、AutoGen フレームワークによって駆動されます。システムは四つの専門エージェントで構成されており、それぞれが特定のタスクを担当しています:

Orchestrator: 主導的なエージェントとして、タスクの計画、分解、調整を行い、実行戦略を動的に調整します。

WebSurfer: ネットワークのナビゲーションや操作に特化しており、情報検索、フォームの入力、オンライン要素との相互作用を行います。

Coder: コードの生成と実行をサポートし、データ分析やスクリプトの自動化などプログラミング支援が必要なタスクに適しています。

FileSurfer: ファイル管理を担当し、ローカルディレクトリの閲覧、ファイル内容の分析、複数形式のドキュメント操作をサポートします。

これらのエージェントは外部ループと内部ループの二重循環メカニズムで協働し、タスク全体の計画を管理し、サブタスクの進行状況を追跡することで、複雑なワークフローを効率的に完了します。例えば、Magentic-UI はウェブフォームの自動入力、フライト情報の詳細な検索のような深層ウェブナビゲーション、またはウェブデータを基にした分析グラフの生成などを可能にし、生産性を大幅に向上させます。

Magentic-UI は MIT ライセンスのもとでオープンソース化され、GitHub(https://github.com/microsoft/Magentic-UI)にコードが公開されており、開発者、企業、研究者が実験やイノベーションを行うためのプラットフォームを提供しています。ユーザーはテキスト入力や画像添付を使用して Magentic-UI と対話でき、システムは自然言語の計画を生成し、リアルタイムでの編集と介入をサポートします。さらに、Magentic-UI には「プラン学習 (plan learning)」機能があり、過去のタスクから学び、実行計画を保存することで、将来のタスクの自動化効率を最適化します。

マイクロソフトによると、Magentic-UI は人を中心とした方法論に基づいて設計されており、パイロットユーザーからのフィードバックを受けながら継続的に最適化されており、直感的で効率的なユーザーエクスペリエンスを保証しています。このオープンソースモデルは、人機協力技術の研究を推進するだけでなく、開発者にモジュラーで拡張可能なフレームワークを提供し、よりスマートな AI アプリケーションの構築を支援します。