マルチモーダル大規模言語モデル(MLLMs)の急速な発展に伴い、モデルが「受動的に画像を理解する」ことから「能動的に証拠を探し、推論する」エージェントへと進化させることが、現在のAI分野における競争の核心となっています。しかし、高品質な訓練データや自動的なトレース合成パス、詳細なトレーニングプロトコルの欠如により、トップクラスのマルチモーダル検索エージェントは開発者コミュニティで再現するのが難しいままでした。
このジレンマを打破するために、騰訊混元(Tencent Hunyuan)とカリフォルニア大学ロサンゼルス校(UCLA)、香港中文大学などの研究チームは、OpenSearch-VLを正式に公開しました。これは、強化学習(RL)技術を用いて先端的な検索エージェントを構築するための完全オープンソースのロードマップです。

革新的なデータ生産ライン、『検索の近道』を克服
研究チームは、モデルの進化において最大の障壁が高品質なトレーニングデータであると指摘しています。複数ステップの推論を行うモデルを訓練するためには、単純な「ワンクリック画像認識」ではなく、多段階の質問応答を行う必要があります。
そのため、チームは精密なデータ固定プロセスを開発しました。このプロセスでは、ウィキペディアの超リンクグラフを用いて経路をサンプリングし、複雑な実体関係を多段階クエリに変換します。モデルが「サボる」ことを防ぐために、研究者は曖昧な実体書き換え技術を用いて直接的な答えを隠し、ソースコードのアンカーに基づく視覚的位置決め技術を導入しました。このような設計により、モデルは視覚的ヒントを最初に識別し、外部ツールを徐々に使用して検索する必要があり、検索過程での機能的崩壊を回避できます。これにより、チームは3.6万件の命令微調整トレースを含むSearchVL-SFTデータベースおよび8,000件の強化学習用SearchVL-RLデータベースを構築しました。
強力なツールボックス:検索だけではない
OpenSearch-VLは単純なテキスト検索にとどまりません。現実的なシナリオでは、ユーザーが提供する画像はぼやけたり、傾いたり、解像度が低かったりすることがあり、検索ツールが機能しなくなることがあります。
そのため、このプロジェクトは多様なツール環境を統合しており、ウェブ検索や逆画像検索だけでなく、OCR(光学文字認識)、画像の切り抜き、明鋭化、超高解像度再構成、透視補正なども含まれています。これにより、エージェントは外部知識を検索する前に、人間のように「能動的な感知」を通じて不完全な視覚入力を修復し、その後の検索の正確性を確保します。
「故障感知」アルゴリズム:失敗から学ぶモデル
長いパスのタスク処理において、ツール呼び出しは連鎖反応を引き起こすことがあり、1つの手順でタイムアウトまたはエラーが発生すると、全体のタスクが停止してしまうことがあります。従来の強化学習では、こうした失敗したトレースは無視され、トレーニングリソースが浪費されることがありました。
OpenSearch-VLは、「複数ラウンドの故障感知 GRPO」というトレーニングアルゴリズムを提案しました。このアルゴリズムは、ツール呼び出しの「致命的なポイント」を敏感に捉え、マスク技術によって失敗後の無効情報をフィルタリングし、一方的な優位性の制限(One-sided advantage clamping)によって失敗前の有用な論理を保持します。この方法により、モデルは最終的に失敗しても、前段階で有効な検索パスと探索戦略を学ぶことができます。
実験結果は商業的プライベートモデルと同等
テスト結果によると、OpenSearch-VLは7つの主要なマルチモーダル深層検索ベンチマークで優れたパフォーマンスを示し、平均的な性能向上は10ポイント以上となっています。特定のタスクでは、現在の最上位の閉鎖型商用モデルと同等のパフォーマンスを達成しています。
現在、研究チームはOpenSearch-VLのすべてのトレーニングデータ、コード、およびモデル重みを全量オープンソース化する計画を立てています。これは、世界中の開発者に再現可能で改善可能な下位枠を提供し、マルチモーダルエージェント研究を「深い水域」へと推進することを目的としています。
論文のURL:https://arxiv.org/pdf/2605.05185
