騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

隨着多模態大語言模型（MLLMs）的飛速發展，如何讓模型從“被動理解圖片”進化爲“主動尋找證據並推理”的智能體(Agent)，已成爲當前 AI 領域競爭的核心。然而，由於高質量訓練數據、自動化軌跡合成路徑以及詳細訓練配方的缺失，頂尖的多模態搜索智能體一直難以被開源社區復現。

爲了打破這一僵局，來自騰訊混元（Tencent Hunyuan）聯合加州大學洛杉磯分校(UCLA)、香港中文大學等機構的研究團隊正式發佈了 OpenSearch-VL。這是一個完全開源的路線圖，旨在通過強化學習（RL）技術打造具備前沿能力的深度搜索智能體。

創新數據生產線，克服“搜索捷徑”

研究團隊指出，目前阻礙模型進化的最大瓶頸在於高質量的訓練數據。爲了訓練出能夠進行多步推理而非簡單“一鍵識圖”的模型，團隊開發了一套精細的數據固化流程。

該流程利用維基百科的超鏈接圖譜進行路徑採樣，將複雜的實體關係轉化爲多跳（Multi-hop）問答。爲了防止模型“偷懶”，研究人員通過模糊實體重寫技術隱藏了直接答案，並引入了基於源碼錨點的視覺定位技術。這種設計強迫模型必須先識別視覺線索，再結合外部工具逐步檢索，從而避免了檢索過程中的功能性崩壞。基於此，團隊構建了包含3.6萬條指令微調軌跡的 SearchVL-SFT 數據庫，以及8000條用於強化學習的 SearchVL-RL 數據庫。

強大的工具箱:不僅僅是搜索

OpenSearch-VL 並不侷限於簡單的文本檢索。在現實場景中，用戶提供的圖片往往存在模糊、歪斜或分辨率低等問題，導致搜索工具失效。

爲此，該項目集成了一個多元化的工具環境，不僅包含網頁搜索和反向圖像搜索，還加入了 OCR（光學字符識別）、圖像裁剪、銳化、超分辨率重建以及透視校正等功能。這意味着智能體在查詢外部知識之前，會像人類一樣先通過“主動感知”修復不完美的視覺輸入，確保後續搜索的精準度。

“故障感知”算法:讓模型從失敗中學習

在長路徑的任務處理中，工具調用往往會產生連鎖反應，一個環節的超時或錯誤可能導致整個任務癱瘓。傳統的強化學習往往會直接丟棄這些失敗的軌跡，造成訓練資源的浪費。

OpenSearch-VL 提出了一種名爲 “多輪故障感知 GRPO” 的訓練算法。該算法能夠靈敏地捕捉到工具調用的“致死點”，通過掩碼技術過濾掉失敗後的無效信息，同時利用單邊優勢鉗制（One-sided advantage clamping）保留故障發生前的有用邏輯。這種方式確保了模型即使在最終失敗的情況下，也能學習到前期有效的搜索路徑和探索策略。

實驗表現比肩商業私有模型

測試結果顯示，OpenSearch-VL 在七項主流多模態深度搜索基準測試中表現卓越，平均性能提升超過10個百分點。在某些特定任務上，其表現已足以與目前的頂級閉源商業模型相媲美。

目前，研究團隊已計劃將 OpenSearch-VL 的所有訓練數據、代碼及模型權重全量開源，旨在爲全球開發者提供一個可復現、可改進的底層框架，推動多模態智能體研究進入“深水區”。

論文地址：https://arxiv.org/pdf/2605.05185

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

創新數據生產線，克服“搜索捷徑”

強大的工具箱:不僅僅是搜索

“故障感知”算法:讓模型從失敗中學習

實驗表現比肩商業私有模型

相關推薦

Perplexity發佈Mac端“個人電腦”應用:深度整合本地文件與跨端協作

騰訊混元 Hy3 預覽版上線兩週，Token 調用量激增超十倍

Anthropic發佈10款金融AI智能體，加速進軍華爾街市場

騰訊開源超輕量離線翻譯模型，手機端運行僅需0.4GB內存

程序員“數字分身”上崗:阿里發佈 QoderWake，實現代碼修復全流程無人值守