隨着多模態大語言模型(MLLMs)的飛速發展,如何讓模型從“被動理解圖片”進化爲“主動尋找證據並推理”的智能體(Agent),已成爲當前 AI 領域競爭的核心。然而,由於高質量訓練數據、自動化軌跡合成路徑以及詳細訓練配方的缺失,頂尖的多模態搜索智能體一直難以被開源社區復現。

爲了打破這一僵局,來自騰訊混元(Tencent Hunyuan)聯合加州大學洛杉磯分校(UCLA)、香港中文大學等機構的研究團隊正式發佈了 OpenSearch-VL。這是一個完全開源的路線圖,旨在通過強化學習(RL)技術打造具備前沿能力的深度搜索智能體。

image.png

創新數據生產線,克服“搜索捷徑”

研究團隊指出,目前阻礙模型進化的最大瓶頸在於高質量的訓練數據。爲了訓練出能夠進行多步推理而非簡單“一鍵識圖”的模型,團隊開發了一套精細的數據固化流程。

該流程利用維基百科的超鏈接圖譜進行路徑採樣,將複雜的實體關係轉化爲多跳(Multi-hop)問答。爲了防止模型“偷懶”,研究人員通過模糊實體重寫技術隱藏了直接答案,並引入了基於源碼錨點的視覺定位技術。這種設計強迫模型必須先識別視覺線索,再結合外部工具逐步檢索,從而避免了檢索過程中的功能性崩壞。基於此,團隊構建了包含3.6萬條指令微調軌跡的 SearchVL-SFT 數據庫,以及8000條用於強化學習的 SearchVL-RL 數據庫。

強大的工具箱:不僅僅是搜索

OpenSearch-VL 並不侷限於簡單的文本檢索。在現實場景中,用戶提供的圖片往往存在模糊、歪斜或分辨率低等問題,導致搜索工具失效。

爲此,該項目集成了一個多元化的工具環境,不僅包含網頁搜索和反向圖像搜索,還加入了 OCR(光學字符識別)、圖像裁剪、銳化、超分辨率重建以及透視校正等功能。這意味着智能體在查詢外部知識之前,會像人類一樣先通過“主動感知”修復不完美的視覺輸入,確保後續搜索的精準度。

“故障感知”算法:讓模型從失敗中學習

在長路徑的任務處理中,工具調用往往會產生連鎖反應,一個環節的超時或錯誤可能導致整個任務癱瘓。傳統的強化學習往往會直接丟棄這些失敗的軌跡,造成訓練資源的浪費。

OpenSearch-VL 提出了一種名爲 “多輪故障感知 GRPO” 的訓練算法。該算法能夠靈敏地捕捉到工具調用的“致死點”,通過掩碼技術過濾掉失敗後的無效信息,同時利用單邊優勢鉗制(One-sided advantage clamping)保留故障發生前的有用邏輯。這種方式確保了模型即使在最終失敗的情況下,也能學習到前期有效的搜索路徑和探索策略。

實驗表現比肩商業私有模型

測試結果顯示,OpenSearch-VL 在七項主流多模態深度搜索基準測試中表現卓越,平均性能提升超過10個百分點。在某些特定任務上,其表現已足以與目前的頂級閉源商業模型相媲美。

目前,研究團隊已計劃將 OpenSearch-VL 的所有訓練數據、代碼及模型權重全量開源,旨在爲全球開發者提供一個可復現、可改進的底層框架,推動多模態智能體研究進入“深水區”。

論文地址:https://arxiv.org/pdf/2605.05185