アリババ・テンユンラボは最近、自社開発の検索AIエージェントプロジェクト「WebAgent」を正式にオープンソース化したことを発表しました。そのエースコンポーネントである「WebShaper」と「WebSailor」は、ネットワークエージェント分野で広く注目を集めています。この突破的なAIツールは、エンド・トゥ・エンドの自律的な情報検索と複数ステップの推論能力を持ち、人間の専門家とほぼ同等あるいはそれ以上のネットワーク相互作用レベルを示しています。

image.png

WebAgent: 人間の検索行動を模倣するインテリジェントエージェント

WebAgentはアリババ・テンユンラボが開発したオープンソースのAIエージェントで、ネットワーク環境における人の知覚・判断・行動のサイクルを模倣することを目的としています。その核心的な目標は、自律的な検索と複数ステップの推論を通じて、複雑で曖昧なネットワークタスクを効率的に処理することです。WebAgentにはいくつかの重要なコンポーネントが含まれており、その中でも「WebSailor」と「WebShaper」は技術革新のポイントです。公式によると、WebAgentは学術データベースやニュースサイト、専門フォーラムを積極的に検索し、キーポイント情報を選別して構造化されたレポートを作成でき、学術研究、ビジネス分析、日常的な照会などさまざまなシナリオに幅広く適用可能です。

BrowseCompという権威ある評価セットにおいて、WebSailor-72Bモデルのパフォーマンスは特に突出しており、DeepSeek R1やGrok-3などの非オープンソースモデルを上回り、OpenAIのDeepResearchに次いでオープンソースネットワークエージェントランキングでトップに輝きました。WebAgentはGAIAおよびWebWalkerQAベンチマークテストにおいてそれぞれ60.19点と52.2点の優れた成績を収め、複雑なタスクでの卓越した性能を示しました。

WebShaper: 形式的な駆動によるデータ合成の新しい枠組み

WebShaperは、WebAgentエコシステムにおける中心的なイノベーションであり、高不確実性タスクにおけるAIの推論問題を解決するための「形式的駆動」に基づくデータ合成方法を提案しています。WebShaperは集合論によって情報検索タスクの数学的表現フレームワークを構築し、「知識プロジェクション」の概念を利用して、複雑な検索プロセスをエンティティの集合操作に抽象化します。例えば、「1990年代に生まれた選手が2004-05シーズンに東ドイツサッカークラブに所属していたか」のような質問に対して、WebShaperは系統的にトレーニングデータを生成し、AIが複数ステップの推論中に正確さを保つようにします。

WebShaperデータセットはスポーツ、学術、政治、エンタメなど多くの分野をカバーしており、スポーツ関連の質問は21%、学術関連は17%を占めており、知識の広範な適応性を確保しています。段階的に拡張する戦略により、推論の近道や情報の冗長性を避けて、AIが完全な推論経路を経て答えを導き出すことを可能にしています。実験では、WebShaperで訓練されたモデルは同じデータ量において、従来のデータセットであるWebWalkerQAやE2HQAよりも顕著に優れたパフォーマンスを示しました。

WebSailor: 複雑なタスクにおける「スーパーインターネット探偵」

WebAgentの「脳」として機能するWebSailorは、大規模言語モデルであり、ユーザーの意図を理解し、ブラウジング戦略を策定し、操作ステップを決定する役割を担っています。最新バージョンのWebSailor-72BはアリババクラウドのFunctionAIによってワンクリックでデプロイ可能で、ユーザーはわずか10分で設定を完了できます。これは使用の障壁を大幅に低下させました。WebSailorは高不確実性タスクにおいて優れたパフォーマンスを発揮し、曖昧な質問や複雑な状況での跨プラットフォーム情報統合を必要とする場面でも対応できます。

WebSailorのトレーニングには革新的なSailorFog-QAデータセットが採用され、サブグラフサンプリングや情報の曖昧化技術を用いて、現実的なネットワーク環境における複雑な知識グラフを模擬しています。この手法により、モデルは「超人間的」なタスクの処理能力を獲得し、BrowseCompテストにおいて、WebSailor-32Bと72Bバージョンはすべてのオープンソースモデルを上回り、一部の閉鎖型システムも超えました。

WebDancerとWebWalker: 完全なエコシステムの構築

WebAgentの成功は、その2つのモジュールであるWebDancerWebWalkerに不可欠です。WebDancerは、エンド・トゥ・エンドのインテリジェントエージェントトレーニングフレームワークであり、四段階のトレーニング(データ構築、トラジェクトリーサンプリング、監督微調整、強化学習)を通じてAIの複数ステップ検索能力を向上させます。最新バージョンのWebDancer-QwQ-32BはGAIA Pass@3評価で64.1%の優れた成績を収めました。一方、WebWalkerは、複雑なウェブページを巡回する言語モデルのパフォーマンスを評価するためのベンチマーキングツールであり、開発者がアルゴリズムを最適化するための標準化された評価体系を提供します。

WebAgentのハイブリッド推論モードは、「思考予算メカニズム」を用いて計算リソースを動的に配分し、単純な質問への迅速な応答と複雑なタスクの深層推論のバランスを取っています。実際のアプリケーションでは、WebAgentは10分以内にテスラと小鹏自動車の仕様表を取得・分析したり、PubMedなどのデータベースから臨床試験データを抽出し、追跡報告書を作成したりすることができ、人間よりはるかに効率的です。

オープンソースの意味: 情報処理とコミュニティイノベーションの再構築

WebAgentのオープンソース化は、企業や開発者の使用コストを削減するだけでなく、グローバルなAIコミュニティに産業レベルのトレーニングフレームワークと評価基準を提供しています。GitHub上のリポジトリ(https://github.com/Alibaba-NLP/WebAgent)は4,000以上のスターを獲得し、GitHubトレンドで1位、Huggingface月間第3位となっています。WebSailorのトレーニング戦略――高難度タスクの合成、小規模な冷起動、効率的な強化学習最適化――は、オープンソースコミュニティが複雑な推論タスクを克服するための貴重なアイデアを提供しています。

学術研究からビジネス意思決定まで、WebAgentの応用可能性は非常に大きいです。例えば、研究者はACL2025の論文テーマを素早く検索できるし、ビジネスユーザーは2025年のAIチップ市場のトレンドを分析でき、一般ユーザーは観光計画や健康相談などのパーソナライズされたアドバイスを得ることができます。WebAgentのオープンソース化は、AIエージェントが技術的デモンストレーションから生産性シーンへと進化する一歩であり、今後、マルチモーダル情報の統合やオープン領域の推論のさらなる突破を促進するものと期待されています。

GitHub:https://github.com/Alibaba-NLP/WebAgent

huggingface:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

model scope:https://modelscope.cn/datasets/iic/WebShaper