隨着人工智能的迅猛發展,尤其是在大型推理模型領域,如 OpenAI 的 o3,研究者們正在努力讓這些模型具備更強的智能體能力。這種能力不僅僅侷限於文本處理,更擴展到了圖像理解與操作。近日,來自上海交通大學、上海人工智能實驗室、香港中文大學和武漢大學的研究團隊推出了一種名爲 Visual-ARFT(視覺智能體強化微調)的新方法,旨在提升視覺語言模型的多模態智能體能力,使其能夠更靈活地執行復雜任務。
Visual-ARFT 的核心在於賦予模型 “工具智能體” 的能力。這意味着,模型不僅能夠分析和理解圖像,還能主動調用外部工具進行搜索或編寫代碼。這一能力使得模型在面對複雜的多模態問題時,能夠自主拆解任務、規劃步驟,並完成任務。例如,它可以在分析圖像信息後,通過搜索引擎查找所需信息,或者生成 Python 代碼處理圖像,完成視覺問答。
爲了評估 Visual-ARFT 的有效性,研究團隊構建了一個新的評測基準 MAT-Bench(多模態智能體工具基準)。該基準包含多個複雜的多跳視覺問答任務,能夠準確評估模型在工具調用與多模態推理方面的能力。測試結果顯示,使用 Visual-ARFT 方法的模型在多個子任務中均表現優異,超越了 GPT-4o 等先進模型,展現出顯著的潛力。
值得一提的是,Visual-ARFT 採用了一種基於強化微調的訓練策略,通過簡單而高效的獎勵機制,驅動模型自主探索如何使用工具,並形成完整的推理過程。研究團隊在訓練中使用了少量的數據,但卻成功提升了模型的多模態智能體能力。
未來,Visual-ARFT 不僅將爲智能體能力的發展開闢新路徑,還可能在圖像處理、智能搜索等多個領域產生深遠影響。隨着技術的不斷進步,我們期待看到更多智能體在複雜場景中的表現,進而推動人工智能的邊界不斷拓展。
項目地址:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT