最近、通義実験室の自然言語知能チームは正式にVRAG-RLを発表し、オープンソース化しました。これは視覚的認識に基づくマルチモーダルRAG推論フレームワークで、AIが画像、テーブル、デザインラフなどの視覚的な言語から重要な情報を検索し、詳細な推論を行う方法を解決することを目指しています。

複雑な視覚ドキュメントの知識ベースで重要な情報を検索・推論することは、AI分野において大きな課題です。従来のRAG(Retrieval-Augmented Generation)法は視覚的に豊富な情報を処理する際に苦労しており、特に画像やチャートなどの視覚的内容に対応するのが難しいです。また、現在の視覚RAG法は固定された検索-生成プロセスに制約されており、視覚情報の中から重要な知識を十分に掘り起こすことは困難です。

微信截图_20250531093312.png

これらの課題に対応するために、VRAG-RLフレームワークは強化学習を活用したマルチモーダルエージェントの訓練、視覚認識メカニズムの設計、および検索と推論の協調最適化という3つの次元で体系的な革新を行っています。フレームワークは多様な視覚認識アクション(例えば、領域選択、トリミング、スケーリングなど)を導入し、モデルが粗粒度から細粒度まで段階的に情報を密度の高い領域に焦点を当て、重要な視覚情報を正確に抽出できるようにします。この粗から細への認識アプローチにより、モデルの視覚情報に対する理解能力が向上し、検索効率も著しく改善されます。

トレーニングプロセスでは、VRAG-RLは多専門家サンプリング戦略を採用し、大規模モデルの推論能力と専門モデルの正確なラベル付け能力を組み合わせることで、モデルがより効果的な視覚認識戦略を学べるようになります。さらに、細かい粒度の報酬メカニズムは検索効率、パターンの一貫性、生成品質の3つの要素を統合し、モデルが検索エンジンとの相互作用の中で検索と推論のパスを継続的に最適化するよう導きます。このような多面的な報酬メカニズムは、検索と推論の双方向の駆動を可能にし、閉ループ最適化を形成します。

VRAG-RLは業界最先端のGRPOアルゴリズムを導入し、ローカルデプロイメントされた検索エンジンをシミュレートして現実世界のアプリケーションシナリオを再現し、検索エンジンの呼び出しコストをゼロに抑えます。これにより、モデルのトレーニング効率が向上します。このトレーニング方法はモデルの汎化能力を向上させ、異なる分野やタイプの視覚タスクでも優れたパフォーマンスを発揮します。

実験結果によれば、VRAG-RLは複数の視覚言語ベンチマークデータセットで既存の手法よりも顕著に優れた性能を示しています。タスクは単一ステップからマルチステップ推論、純粋なテキスト理解からチャート認識や複雑なレイアウト解析まで多岐にわたります。従来のprompt-based手法や強化学習ベースの手法に比べても、VRAG-RLは総合的なパフォーマンスで優れています。

さらに、VRAG-RLは複数回のインタラクションをサポートしており、推論段階で徐々に情報を密度の高い領域に集中させ、粗から細への情報取得を実現します。この方法は検索効率と推論パスを最適化することで、高い効率を維持しつつ、視覚タスクでのモデルのパフォーマンスを大幅に向上させます。

Github: github.com/Alibaba-NLP/VRAG