アリババがオープンソースのWebSailor AIエージェントを公開し、情報検索の壁を打ち破る

インターネットの急激な発展に伴い、情報が爆発的に増加したため、人間は情報検索において多くの課題に直面しています。これらの課題に対応するため、アリババの通義ラボは革新的なオープンソースAIスマートエージェントフレームワーク「WebSailor」をリリースしました。このフレームワークは優れた性能を持ち、特に複雑なタスク処理において、GitHubで5000以上のスター評価を獲得し、毎日の成長率が最も高いプロジェクトの一つとなっています。

WebSailorの優れた性能

WebSailorの開発チームは、いくつかのベンチマークテストを通じてその優れた性能を検証しました。BrowseComp-en/zhテストでは、WebSailorはすべての既存のオープンソースエージェントを上回り、一部の閉鎖型モデルと同等のパフォーマンスを示しました。また、SimpleQAベンチマークテストでも、WebSailorは単純なタスク処理において優れた性能を発揮しました。

複雑なタスク生成と強化学習の統合

WebSailorの核心技術は、複雑なタスク生成と強化学習の2つのモジュールに集約されています。これらのモジュールは相互に補完し合い、WebSailorが複雑な情報検索タスクを処理する際に高い効率を発揮します。

複雑なタスク生成 :現実世界の情報環境を模倣するために、研究チームは複雑な知識グラフを構築しました。これらのグラフはランダムウォークを通じて生成され、非常に非線的で複雑な性質を持っています。各ノードはエンティティを表し、エッジはエンティティ間の関係を示し、多様な組み合わせを形成することで、高不確実性のタスク生成の基盤となります。

強化学習モジュール :強化学習の目的は、環境との相互作用を通じてモデルの行動戦略を最適化することです。WebSailorは二段階のトレーニング方法を採用しており、まず拒否サンプリングによる微調整ステージ（RFT）でモデルを冷起動し、その後強化学習ステージに入ります。このプロセスにおいて、研究チームは動的サンプリング戦略を導入してトレーニングプロセスを最適化し、DUPOアルゴリズムを提案することで、より少ないサンプルで高いパフォーマンスを実現しました。

タスク複雑性を向上させるイノベーション手法

タスクの複雑性をさらに高めるために、研究チームは質問と回答対の生成時に情報曖昧化技術を導入しました。この技術により、正確な情報が曖昧な説明に置き換えられ、問題がより挑戦的になり、モデルに対してより複雑な推論と情報合成を要求します。このイノベーション手法はタスクの難易度を高めると同時に、モデルの知能レベルも向上させました。

WebSailorのリリースにより、アリババは人工知能分野でのイノベーションをさらに進めたものです。オープンソースの特徴により、技術の普及と発展が促進され、開発者にとってより多くの探索空間と実践機会が提供されます。今後、WebSailorは情報検索やインテリジェントな質問応答などの分野で大きな潜在能力を示すことが期待されています。

オープンソースの場所:https://github.com/Alibaba-NLP/WebAgent

NetflixがAIを抱きしめる：オリジナルシリーズ『エターナルズ』が初の試みを実施　視覚効果を10倍速くする技術に議論を巻き起こす

NetflixはアルゼンチンのSFドラマ『エターナルズ』で初めて大規模なAI技術を応用し、ビルの崩壊などの特殊効果シーンをAIで補助して制作効率を10倍にした。CEOのサランダスはAIが創作の質を高めることに重点を置いていると強調している。この作品には2000以上の特撮シーンがあり、AI技術により中小予算のプロジェクトでも高級な特別効果を実現可能になった。業界ではAIに関する意見の分かれる問題（例えばハリウッドのストライキによる反対）もあるものの、NetflixはAIのプリビジアライゼーションやカメラワーク計画などでの応用を継続的に探求している。特撮以外にも

新規マルチモーダル埋め込み学習フレームワーク VLM2Vec-V2：画像、動画、ビジュアルドキュメントの検索タスクを統一

Salesforce Researchなどの機関が共同でVLM2Vec-V2マルチモーダル埋め込みフレームワークを発表。従来モデルの限界を突破。このフレームワークはQwen2-VLアーキテクチャに基づき、画像、動画、ビジュアルドキュメントの検索タスクを独創的に統一処理。MMEBデータセットに5つの新しい評価タスクを追加。ダイナミック解像度やM-RoPEなどのキーテクノロジーにより、78個のデータセットでのテストで平均58.0点を記録し、特に動画タスクでのパフォーマンスが突出している。文書検索ではColPaliに少し劣るものの、

コリントAIが正式に「リーダンク」クリエイティブワークステーションを発表、マルチイメージ参照機能に大きなアップグレード

快手コリントAIは2025年世界人工知能大会で2つの重要な進展を発表しました。統合創作プラットフォーム「リーダンク」と、マルチイメージ参照機能のアップグレードです。データによると、プラットフォームのグローバルなクリエイター数は4500万人を超え、累計で2億本の動画と4億枚の画像が生成されています。新しいワークステーションは無限キャンバス、スマート補助、多人数協力の機能を統合し、ワンストップの創作体験を実現しています。アップグレードされたマルチイメージ参照機能により、キャラクターの一貫性、シーンの統一性、局所的な制御能力が大幅に向上しています。ビジネス面では、B層の商家数が急増しており、世界149か国の2万社が利用しています。

天猫精灵が「わおガールズスマートブック」を発表：内蔵する通義音声大モデル

最近、天猫精灵の公式は新製品「わおAIガールズスマートブック・スマートバージョン」を正式に発表しました。この新製品は、超大型AIスクリーンを備え、「良いサウンドと視覚、よりスマート」として、発売後多くの消費者の注目を集めました。現在、全販売チャネルで予約受付中です。わおAIガールズスマートブック・スマートバージョンは、ユーザーの異なるニーズに対応するために3つのバージョンを提供しています。そのうち、6+128GBバージョンはリリース価格が3699元、6+256GBバージョンは3999元、長持続バージョンは4399元です。

アリババがオープンソースのWebSailor AIエージェントを公開し、情報検索の壁を打ち破る

WebSailorの優れた性能

複雑なタスク生成と強化学習の統合

タスク複雑性を向上させるイノベーション手法

関連推奨

Netflix が新ドラマ『El Eternauta』で生成型AIエフェクトを初めて使用

NetflixがAIを抱きしめる：オリジナルシリーズ『エターナルズ』が初の試みを実施　視覚効果を10倍速くする技術に議論を巻き起こす

新規マルチモーダル埋め込み学習フレームワーク VLM2Vec-V2：画像、動画、ビジュアルドキュメントの検索タスクを統一

コリントAIが正式に「リーダンク」クリエイティブワークステーションを発表、マルチイメージ参照機能に大きなアップグレード

天猫精灵が「わおガールズスマートブック」を発表：内蔵する通義音声大モデル

アリババがオープンソースのWebSailor AIエージェントを公開し、情報検索の壁を打ち破る

WebSailorの優れた性能

複雑なタスク生成と強化学習の統合

タスク複雑性を向上させるイノベーション手法

関連推奨

Netflix が新ドラマ『El Eternauta』で生成型AIエフェクトを初めて使用

NetflixがAIを抱きしめる：オリジナルシリーズ『エターナルズ』が初の試みを実施 視覚効果を10倍速くする技術に議論を巻き起こす

​新規マルチモーダル埋め込み学習フレームワーク VLM2Vec-V2：画像、動画、ビジュアルドキュメントの検索タスクを統一

コリントAIが正式に「リーダンク」クリエイティブワークステーションを発表、マルチイメージ参照機能に大きなアップグレード

天猫精灵が「わおガールズスマートブック」を発表：内蔵する通義音声大モデル

NetflixがAIを抱きしめる：オリジナルシリーズ『エターナルズ』が初の試みを実施　視覚効果を10倍速くする技術に議論を巻き起こす

新規マルチモーダル埋め込み学習フレームワーク VLM2Vec-V2：画像、動画、ビジュアルドキュメントの検索タスクを統一