崑崙萬維今日正式宣佈,他們打造的 Skywork R1V 多模態推理模型,正式開源了!這不僅是中國首個工業界開源的多模態推理模型,更標誌着中國AI力量在多模態理解和推理領域,邁出了里程碑式的一步!即日起,模型權重和技術報告完全對外敞開懷抱!

想象一下,一個AI模型不僅能看懂圖片,還能像人類一樣進行邏輯推理,解決複雜的視覺難題——這不再是科幻電影裏的場景,而是 Skywork R1V 正在實現的能力!這款模型就像一位“AI界的福爾摩斯”,它擅長抽絲剝繭,通過多步驟的邏輯分析,從海量視覺信息中挖掘出深層含義,最終給出精準答案。無論是破解視覺邏輯謎題,解答高難度的視覺數學題,還是分析圖像中的科學現象,甚至是輔助醫學影像的診斷推理,Skywork R1V 都能展現出驚人的實力。

image.png

要衡量一個AI模型的“智商”,數據最有說服力!在 Reasoning 推理能力方面,Skywork R1V 在權威的 MATH500和 AIME 基準測試中,分別斬獲94.0和72.0的超高分!這意味着,無論是破解複雜的數學難題,還是進行嚴謹的邏輯推理,Skywork R1V 都能輕鬆勝任。更令人驚豔的是,它還將強大的推理能力成功“嫁接”到了視覺領域,在 MMMU 和 MathVista 等視覺推理基準測試中,分別取得了69和67.5的高分!這些硬核數據,直接證明了 Skywork R1V 擁有頂尖的邏輯推理和數學分析能力!

image.png

崑崙萬維自豪地表示,Skywork R1V 模型背後,凝聚着三大關鍵技術創新:

首先是 文本推理能力的多模態高效遷移。 崑崙萬維團隊獨闢蹊徑,巧妙地利用 Skywork-VL 的視覺投影器,無需耗費巨資重新訓練語言模型和視覺編碼器,就如同“乾坤大挪移”一般,將原本強大的文本推理能力,完美地遷移到了視覺任務之上,並且絲毫沒有影響其原有的文本推理功力!

其次是 多模態混合式訓練 (Iterative SFT+GRPO)。 這種訓練方式就像是給模型餵了“混合營養餐”,通過迭代監督微調和 GRPO 強化學習的巧妙結合,分階段、有策略地對齊視覺-文本表徵,最終實現了跨模態任務的高效融合,模型的跨模態能力也因此突飛猛進!在 MMMU 和 MathVista 基準測試中,Skywork R1V 的表現甚至可以媲美更大規模的閉源模型!

最後是 自適應長度思維鏈蒸餾。 崑崙萬維團隊創新性地提出了一種“智能剎車”機制,模型能夠根據視覺-文本的複雜度,自適應地調整推理鏈的長度,避免“過度思考”,從而在保證推理精度的同時,大幅提升推理效率!再配合多階段自蒸餾策略,模型的數據生成和推理質量更上一層樓,在複雜的多模態任務中表現更加遊刃有餘!

image.png

Skywork R1V 的開源,無疑將爲中國乃至全球的AI研究者和開發者,提供一個強大的多模態推理“利器”。 它的出現,不僅將加速多模態AI技術的創新和應用,更將推動AI技術在各行各業的深度融合,爲我們開啓一個更加智能、更加美好的未來!