テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

マルチモーダル大規模言語モデル（MLLMs）の急速な発展に伴い、モデルが「受動的に画像を理解する」ことから「能動的に証拠を探し、推論する」エージェントへと進化させることが、現在のAI分野における競争の核心となっています。しかし、高品質な訓練データや自動的なトレース合成パス、詳細なトレーニングプロトコルの欠如により、トップクラスのマルチモーダル検索エージェントは開発者コミュニティで再現するのが難しいままでした。

このジレンマを打破するために、騰訊混元（Tencent Hunyuan）とカリフォルニア大学ロサンゼルス校（UCLA）、香港中文大学などの研究チームは、OpenSearch-VLを正式に公開しました。これは、強化学習（RL）技術を用いて先端的な検索エージェントを構築するための完全オープンソースのロードマップです。

革新的なデータ生産ライン、『検索の近道』を克服

研究チームは、モデルの進化において最大の障壁が高品質なトレーニングデータであると指摘しています。複数ステップの推論を行うモデルを訓練するためには、単純な「ワンクリック画像認識」ではなく、多段階の質問応答を行う必要があります。

そのため、チームは精密なデータ固定プロセスを開発しました。このプロセスでは、ウィキペディアの超リンクグラフを用いて経路をサンプリングし、複雑な実体関係を多段階クエリに変換します。モデルが「サボる」ことを防ぐために、研究者は曖昧な実体書き換え技術を用いて直接的な答えを隠し、ソースコードのアンカーに基づく視覚的位置決め技術を導入しました。このような設計により、モデルは視覚的ヒントを最初に識別し、外部ツールを徐々に使用して検索する必要があり、検索過程での機能的崩壊を回避できます。これにより、チームは3.6万件の命令微調整トレースを含むSearchVL-SFTデータベースおよび8,000件の強化学習用SearchVL-RLデータベースを構築しました。

強力なツールボックス：検索だけではない

OpenSearch-VLは単純なテキスト検索にとどまりません。現実的なシナリオでは、ユーザーが提供する画像はぼやけたり、傾いたり、解像度が低かったりすることがあり、検索ツールが機能しなくなることがあります。

そのため、このプロジェクトは多様なツール環境を統合しており、ウェブ検索や逆画像検索だけでなく、OCR（光学文字認識）、画像の切り抜き、明鋭化、超高解像度再構成、透視補正なども含まれています。これにより、エージェントは外部知識を検索する前に、人間のように「能動的な感知」を通じて不完全な視覚入力を修復し、その後の検索の正確性を確保します。

「故障感知」アルゴリズム：失敗から学ぶモデル

長いパスのタスク処理において、ツール呼び出しは連鎖反応を引き起こすことがあり、1つの手順でタイムアウトまたはエラーが発生すると、全体のタスクが停止してしまうことがあります。従来の強化学習では、こうした失敗したトレースは無視され、トレーニングリソースが浪費されることがありました。

OpenSearch-VLは、「複数ラウンドの故障感知 GRPO」というトレーニングアルゴリズムを提案しました。このアルゴリズムは、ツール呼び出しの「致命的なポイント」を敏感に捉え、マスク技術によって失敗後の無効情報をフィルタリングし、一方的な優位性の制限（One-sided advantage clamping）によって失敗前の有用な論理を保持します。この方法により、モデルは最終的に失敗しても、前段階で有効な検索パスと探索戦略を学ぶことができます。

実験結果は商業的プライベートモデルと同等

テスト結果によると、OpenSearch-VLは7つの主要なマルチモーダル深層検索ベンチマークで優れたパフォーマンスを示し、平均的な性能向上は10ポイント以上となっています。特定のタスクでは、現在の最上位の閉鎖型商用モデルと同等のパフォーマンスを達成しています。

現在、研究チームはOpenSearch-VLのすべてのトレーニングデータ、コード、およびモデル重みを全量オープンソース化する計画を立てています。これは、世界中の開発者に再現可能で改善可能な下位枠を提供し、マルチモーダルエージェント研究を「深い水域」へと推進することを目的としています。

論文のURL：https://arxiv.org/pdf/2605.05185

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

革新的なデータ生産ライン、『検索の近道』を克服

強力なツールボックス：検索だけではない

「故障感知」アルゴリズム：失敗から学ぶモデル

実験結果は商業的プライベートモデルと同等

関連推奨

テンセント・フュアン Hy3 プレビュー版が公開されて2週間でトークン使用量が10倍に急増

雷軍が小米のパソコン版エビ「MiClaw」の開発を確認。MiMo-V2-Pro大モデルが全プラットフォームでリリース

Stripeがマシンペイメントプロトコル（MPP）を発表：AIエージェントによる自律的な支払いの時代が開幕

OpenAIがFrontierプラットフォームを発表：AIコラボレーションエコシステムの構築と企業向けインテリジェントエージェントの実装を加速

MiniMax M2.1が衝撃的なオープンソースを発表！100億パラメータの活性化パラメータを持つモデルがSOTAを制覇多言語プログラミングでGemini3ProやClaude 4.5を上回る

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

革新的なデータ生産ライン、『検索の近道』を克服

強力なツールボックス：検索だけではない

「故障感知」アルゴリズム：失敗から学ぶモデル

実験結果は商業的プライベートモデルと同等

関連推奨

テンセント・フュアン Hy3 プレビュー版が公開されて2週間でトークン使用量が10倍に急増

雷軍が小米のパソコン版エビ「MiClaw」の開発を確認。MiMo-V2-Pro大モデルが全プラットフォームでリリース

Stripeがマシンペイメントプロトコル（MPP）を発表：AIエージェントによる自律的な支払いの時代が開幕

OpenAIがFrontierプラットフォームを発表：AIコラボレーションエコシステムの構築と企業向けインテリジェントエージェントの実装を加速

MiniMax M2.1が衝撃的なオープンソースを発表！100億パラメータの活性化パラメータを持つモデルがSOTAを制覇 多言語プログラミングでGemini3ProやClaude 4.5を上回る

MiniMax M2.1が衝撃的なオープンソースを発表！100億パラメータの活性化パラメータを持つモデルがSOTAを制覇多言語プログラミングでGemini3ProやClaude 4.5を上回る