一直專注於讓AI看懂世界的 Groundlight 研究團隊,近日放大招,宣佈開源了一套全新的 AI 框架!這套框架旨在攻克視覺領域的一大難題——複雜的視覺推理,讓AI不僅能“看圖識物”,更能像福爾摩斯一樣,從圖像中推理出更深層次的信息。 

我們都知道,現在的AI在識別貓貓狗狗方面已經爐火純青,但要讓它們理解圖片背後的邏輯關係,進行更復雜的推理,就常常“卡殼”。 Groundlight 的研究人員指出,當前的視覺語言模型 (VLM) 在理解圖像本身尚且不足的情況下,更難以完成需要深度解讀的任務

QQ_1742194787910.png

雖然大型語言模型 (LLM) 在文本推理方面取得了巨大進展,但視覺領域的類似突破仍然有限。現有的 VLM 在需要結合視覺和文本線索進行邏輯推演時常常表現不佳,這凸顯了它們能力上的一個關鍵缺陷。 僅僅識別圖像中的物體是遠遠不夠的,理解物體之間的關係和上下文信息纔是關鍵.

強化學習來助力,GRPO 成就“最強大腦”

爲了提升VLM的視覺推理能力,Groundlight 的研究團隊別出心裁地採用了強化學習方法,並創新性地利用了 GRPO (Gradient Ratio Policy Optimization) 來提高學習效率。 

之前的研究,例如 Deepseek 的工作和語言模型的先進推理,很少將這些技術擴展到 VLM 領域。 爲了驗證他們的方法,研究人員設計了一個需要同時處理視覺和文本信息的密碼破譯任務。 模型需要使用一個隨機生成的解碼器圖像來解讀編碼信息,最終,一個僅有30億參數的模型就達到了 96% 的準確率! 注意力分析表明,模型在解決任務時能夠積極地參與視覺輸入,專注於相關的解碼器區域。

使用 GRPO 訓練 VLM 並非一帆風順,尤其是在分詞 (tokenization) 和獎勵設計方面。 由於模型通常將文本處理爲詞元 (tokens) 而非單個字符,因此對於需要精確字符級別推理的任務來說可能會遇到困難。

 爲了緩解這個問題,研究人員在消息的字母之間添加了空格,以簡化解碼過程。 獎勵設計是另一個至關重要的環節,因爲強化學習模型需要結構良好的反饋纔能有效地學習。 研究人員使用了三種獎勵類型:格式獎勵,確保輸出的一致性;解碼獎勵,鼓勵對亂碼文本進行有意義的轉換;以及正確性獎勵,提高準確性。 通過仔細平衡這些獎勵,研究人員成功避免了模型學習到意外的“捷徑”,確保其真正提高了密碼破譯能力。

GRPO 通過比較多個輸出而非依賴直接梯度計算來優化學習過程,這爲訓練帶來了更高的穩定性。 通過爲每個查詢生成多個響應並相互評估,這種方法實現了更平滑的學習曲線。 這項研究也強調了 VLM 在基於推理的任務中的潛力,但也承認了複雜視覺模型帶來的高昂計算成本。 

爲了解決效率問題,他們提出了選擇性模型升級等技術,即僅在模糊不清的情況下才使用更昂貴的模型。 此外,他們還建議集成預訓練的物體檢測、分割和深度估計模型,以在不顯着增加計算開銷的情況下增強推理能力。 這種基於工具的方法爲訓練大型端到端模型提供了一種可擴展的替代方案,強調效率與準確性並重。

Groundlight 團隊通過集成強化學習技術,特別是 GRPO,在增強 VLM 方面取得了顯著的進展。 他們在一個密碼破譯任務中測試了他們的方法,模型展現出了令人印象深刻的準確性。 

項目:https://github.com/groundlight/r1_vlm

demo:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder