インターネットの急激な発展に伴い、情報が爆発的に増加したため、人間は情報検索において多くの課題に直面しています。これらの課題に対応するため、アリババの通義ラボは革新的なオープンソースAIスマートエージェントフレームワーク「WebSailor」をリリースしました。このフレームワークは優れた性能を持ち、特に複雑なタスク処理において、GitHubで5000以上のスター評価を獲得し、毎日の成長率が最も高いプロジェクトの一つとなっています。

WebSailorの優れた性能
WebSailorの開発チームは、いくつかのベンチマークテストを通じてその優れた性能を検証しました。BrowseComp-en/zhテストでは、WebSailorはすべての既存のオープンソースエージェントを上回り、一部の閉鎖型モデルと同等のパフォーマンスを示しました。また、SimpleQAベンチマークテストでも、WebSailorは単純なタスク処理において優れた性能を発揮しました。
複雑なタスク生成と強化学習の統合
WebSailorの核心技術は、複雑なタスク生成と強化学習の2つのモジュールに集約されています。これらのモジュールは相互に補完し合い、WebSailorが複雑な情報検索タスクを処理する際に高い効率を発揮します。
複雑なタスク生成 :現実世界の情報環境を模倣するために、研究チームは複雑な知識グラフを構築しました。これらのグラフはランダムウォークを通じて生成され、非常に非線的で複雑な性質を持っています。各ノードはエンティティを表し、エッジはエンティティ間の関係を示し、多様な組み合わせを形成することで、高不確実性のタスク生成の基盤となります。
強化学習モジュール :強化学習の目的は、環境との相互作用を通じてモデルの行動戦略を最適化することです。WebSailorは二段階のトレーニング方法を採用しており、まず拒否サンプリングによる微調整ステージ(RFT)でモデルを冷起動し、その後強化学習ステージに入ります。このプロセスにおいて、研究チームは動的サンプリング戦略を導入してトレーニングプロセスを最適化し、DUPOアルゴリズムを提案することで、より少ないサンプルで高いパフォーマンスを実現しました。

タスク複雑性を向上させるイノベーション手法
タスクの複雑性をさらに高めるために、研究チームは質問と回答対の生成時に情報曖昧化技術を導入しました。この技術により、正確な情報が曖昧な説明に置き換えられ、問題がより挑戦的になり、モデルに対してより複雑な推論と情報合成を要求します。このイノベーション手法はタスクの難易度を高めると同時に、モデルの知能レベルも向上させました。
WebSailorのリリースにより、アリババは人工知能分野でのイノベーションをさらに進めたものです。オープンソースの特徴により、技術の普及と発展が促進され、開発者にとってより多くの探索空間と実践機会が提供されます。今後、WebSailorは情報検索やインテリジェントな質問応答などの分野で大きな潜在能力を示すことが期待されています。
オープンソースの場所:https://github.com/Alibaba-NLP/WebAgent
