階躍星辰科技團隊宣佈正式推出全新的多模態推理模型 Step-R1-V-Mini。這一模型的發佈標誌着在多模態協同推理領域的新突破,爲AI技術的進一步發展注入了新的活力。Step-R1-V-Mini支持圖文輸入和文字輸出,具備良好的指令遵循能力和通用性,能夠高精度感知圖像並完成複雜的推理任務。

Step-R1-V-Mini的訓練方法在技術上進行了創新,採用了多模態聯合強化學習,基於PPO(Proximal Policy Optimization)強化學習策略,在圖像空間引入了verifiable reward機制。這一機制有效解決了圖片空間推理鏈路複雜、容易產生混淆的相關和因果推理錯誤的問題。與DPO(Direct Preference Optimization)等方法相比,Step-R1-V-Mini在處理圖像空間的複雜鏈路時更具泛化性和魯棒性。

微信截圖_20250409085809.png

此外,爲了充分利用多模態合成數據,階躍星辰設計了大量基於環境反饋的多模態數據合成鏈路,合成了可規模化訓練的多模態推理數據。通過基於PPO的強化學習訓練,同步提升了模型的文本和視覺推理能力,有效避免了訓練過程中的蹺蹺板問題。

在視覺推理領域的表現上,Step-R1-V-Mini取得了顯著的成績。在多個公開榜單中,Step-R1-V-Mini均表現亮眼,特別是在MathVision視覺推理榜單上位列國內第一。這表明該模型在視覺推理、數學邏輯和代碼等方面具有優異的表現。

Step-R1-V-Mini的實際應用案例也展示了其強大的功能。例如,在“看圖識地點”案例中,輸入網友拍攝的溫布利球場圖片,Step-R1-V-Mini能夠迅速識別圖中元素,結合不同元素如顏色、物體(體育場、曼城隊徽)等進行綜合判斷,準確推斷出地點爲溫布利體育場,並給出了可能的對戰雙方。在“看圖識菜譜”案例中,輸入一張美食圖,Step-R1-V-Mini能夠精準識別菜品和蘸料,並詳細列出具體用量,如“鮮蝦300g、大蔥白2根”等。在“物體數量計算”案例中,輸入一張含有不同形狀、顏色和位置的物體擺放圖,Step-R1-V-Mini能夠逐一識別,根據物體的顏色、形狀和位置進行推理計算,最終得出剩下的物體數量。

Step-R1-V-Mini的發佈爲多模態推理領域帶來了新的希望。該模型已正式上線階躍AI網頁端,並在階躍星辰開放平臺提供API接口,供開發者和研究人員體驗和使用。階躍星辰錶示,Step-R1-V-Mini是他們在多模態推理方向的階段性成果,未來將繼續在推理模型方向進行探索,以推動AI技術的進一步發展。

階躍AI 網頁端:

https://yuewen.cn/chats/new

階躍星辰開放平臺:

https://platform.stepfun.com/docs/llm/reasoning