近日,通義實驗室自然語言智能團隊正式發佈並開源了VRAG-RL——一款視覺感知驅動的多模態RAG推理框架,旨在解決在真實業務場景中,AI如何從圖像、表格、設計稿等視覺語言中檢索關鍵信息並進行精細化推理的難題。

在複雜視覺文檔知識庫中檢索並推理關鍵信息,一直是AI領域的一大挑戰。傳統的檢索增強型生成(RAG)方法在處理視覺豐富信息時顯得力不從心,主要因爲它們難以應對圖像、圖表等視覺內容,且現有視覺RAG方法受限於固定的檢索-生成流程,難以充分挖掘視覺信息中的關鍵知識。

微信截圖_20250531093312.png

爲應對這些挑戰,VRAG-RL框架從強化學習賦能多模態智能體訓練、視覺感知機制設計以及檢索與推理協同優化三個維度進行了系統性創新。它引入了多樣化的視覺感知動作,如區域選擇、裁剪、縮放等,使模型能夠從粗粒度到細粒度逐步聚焦信息密集區域,精準提取關鍵視覺信息。這種從粗到細的感知方式,不僅提高了模型對視覺信息的理解能力,還顯著提升了檢索效率。

在訓練過程中,VRAG-RL採用多專家採樣策略,結合大規模模型的推理能力和專家模型的精確標註能力,使模型能夠學習到更有效的視覺感知策略。同時,其細粒度獎勵機制將檢索效率、模式一致性與生成質量三方面因素融合,引導模型在與搜索引擎的交互中不斷優化檢索與推理路徑。這種多維度獎勵機制實現了檢索與推理的雙向驅動,形成了閉環優化。

VRAG-RL還引入了業界領先的GRPO算法,通過本地部署搜索引擎模擬真實世界應用場景,實現搜索引擎調用零成本,模型訓練更加高效。這種訓練方式不僅提升了模型的泛化能力,還使其在不同領域、不同類型的視覺任務中都能表現出色。

實驗結果表明,VRAG-RL在多個視覺語言基準數據集上均取得了顯著優於現有方法的性能表現,任務類型涵蓋從單跳到多跳推理、從純文本理解到圖表識別和複雜佈局解析等多種視覺豐富場景。無論是傳統的prompt-based方法還是基於強化學習的方法,VRAG-RL都展現出了更出色的綜合性能。

此外,VRAG-RL支持多輪交互,能夠在推理階段逐步聚焦於信息密集區域,實現從粗到細的信息獲取。同時,該方法通過優化檢索效率和推理路徑,在保持高效率的同時,顯著提升了模型在視覺任務上的性能。

Github:github.com/Alibaba-NLP/VRAG