マイクロソフト研究所は最近、新しいウェブエージェント(Web Agent)フレームワーク「Webwright」をオープンソース化しました。このフレームワークは現在の主流である「スクリーンショット/DOMクリック」の予測モードを放棄し、AIモデルが端末内で直接Playwrightコードを記述し、Bashコマンドを実行することで、より効率的で論理的な方法で複雑なウェブタスクを完了します。

一、コアアーキテクチャ:極めてシンプルな「端末優先」のスタイル
Webwrightの設計理念は非常に硬質です。「一つの端末は多くの抽象よりも優れている」という考え方に基づいています。このフレームワークのコード量は約1,000行
Runner(約150行): エージェントのループロジックを担当し、コンテキストと実行を管理します。
Model Endpoint(約550行): 一元的なモデルインターフェースを提供し、OpenAI、Anthropic、OpenRouterなど後方のサポートを可能にしています。
Terminal Environment(約300行): 隔離された端末実行環境を提供し、モデルがPlaywrightスクリプトを実行し、ログを確認し、スクリーンショットを分析し、デバッグを行うことを可能にしています。
作業フロー: Runnerが現在のタスクコンテキストをモデルに送信します → モデルが「思考過程」と「Shellコマンド」を生成します → 環境が実行し結果(出力、スクリーンショット、エラースタック)を返します → 次のループに進み、タスクが完了するまで続けます。

二、なぜ「クリック」から「コードの記述」へと移行したのか?
現在の主流エージェントは、ブラウザを操作するために「クリック」「スクロール」「入力」を繰り返すことで動作しています。このようなモードには効率の低さや状態の維持困難などの限界があります。Webwrightのコード駆動型モードは顕著な利点をもたらします。
論理の再利用: 各操作は一度限りのクリック記録ではなく、再利用可能なRPA(ロボティック・プロセス・オートメーション)スクリプトとして生成されます。これらのスクリプトはClaude CodeやCodexなどの他のツールで呼び出すことができます。
複雑な論理処理: コードはループ、関数、論理分岐を天然的にサポートしており、フォーム入力、ページ間操作、条件ジャンプなどの長手順タスクにおいて、単純なアクションの積み重ねよりもはるかに表現力が高いです。
工学的なエラー修正: 実行エラー後のスタック分析を通じて、モデルは「コードの記述-実行-エラー-修正」の反復ループに自主的に進入でき、タスク成功確率を大幅に向上させます。
三、工学的突破:「偽成功」と「コンテキスト膨張」の解決
エージェントがよく遭遇する二つの問題に対して、Webwrightは対応するソリューションを導入しています。
ゲート付き自己検証メカニズム: モデルが「幻覚性」でタスク完了を宣言することを防ぎます。モデルはまず「自己検証設定」を生成し、最終的なスクリプトをきれいな環境で実行しなければなりません。自身の反省を通じてタスクが本当に達成されたかどうかを判断し、完成マーカーを出力する必要があります。
歴史圧縮: 長い軌跡によって引き起こされるコンテキストの過負荷に対応するため、システムは20ステップごとに履歴を要約して圧縮し、常に核心的な進行に焦点を当てることを確保します。
四、テスト結果:性能がベンチマークを上回る
2026年5月のベンチマークテストでは、Webwrightは優れたパフォーマンスを示しました。
Online-Mind2Web: GPT-5.4に基づくWebwrightは、100ステップの予算内で86.67%の正確率を達成し、同様のオープンソースソリューションの中で最も優れています。
Odysseys(長手順タスク): 平均272語の複雑な指示に直面し、Webwright + GPT-5.4は60.1%のスコアを取得し、ベースのGPT-5.4(33.5%)と比較して約81.5%のパフォーマンス増加
業界評価
Webwrightの登場は重要なトレンドを示しています。モデルのプログラミング能力が向上する中、エージェントは「開発者スタイル」へと転換しています。ブラウザを単なるインタフェースではなく、プログラマブルなエンドポイントとして扱うことで、WebwrightはAIウェブタスクの実行効率と頑健性を新たな高みに押し上げました。
