4月24日,崑崙萬維宣佈正式開源其多模態推理模型Skywork-R1V2.0(以下簡稱R1V2.0)。這一升級版本在視覺與文本推理能力上均實現了顯著提升,特別是在高考理科難題的深度推理和通用任務場景中表現出色,堪稱當前最均衡兼顧視覺與文本推理能力的開源多模態模型。

R1V2.0的開源,不僅是崑崙萬維在多模態領域技術實力的體現,也爲全球開發者和研究者提供了強大的工具,推動多模態生態建設。該模型在多個權威基準測試中刷新了開源SOTA紀錄,展現出與商業閉源模型相媲美的能力。

性能全面提升,領跑中文場景

R1V2.0在中文場景下的表現尤爲突出,特別是在理科學科題目(數學、物理、化學)的推理效果上,堪稱免費AI解題助手。該模型不僅在MMMU上取得73.6分的優異成績,刷新開源SOTA紀錄,還在Olympiad Bench上達到62.6分,顯著領先其他開源模型。此外,在MathVision、MMMU-PRO與MathVista等多項視覺推理榜單中,R1V2.0均表現優異,多項能力已可媲美閉源商業模型。

在文本推理方面,R1V2.0在AIME2024和LiveCodeBench等挑戰中分別取得了78.9分和63.6分,展現出人類專家級數學與代碼理解能力。這些成績表明,R1V2.0不僅在視覺推理上表現出色,在文本推理方面也具備卓越的能力。

微信截圖_20250424103054.png

技術亮點:多模態獎勵模型與混合偏好優化

R1V2.0的性能提升得益於多項技術創新。其中,最引人注目的是全新推出的多模態獎勵模型Skywork-VL Reward和混合偏好優化機制(MPO)。

Skywork-VL Reward模型爲多模態強化學習提供了高質量的獎勵信號,能夠精準評估多模態推理模型長序列輸出的整體質量。這一模型在視覺獎勵模型評測榜單VL-RewardBench中取得了73.1的SOTA成績,同時在純文本獎勵模型評測榜單RewardBench中也斬獲了高達90.1的優異分數,全面展示了其在多模態和文本任務中的強大泛化能力。

MPO機制則通過引入多種損失函數協同優化,解決了大模型訓練中“深度推理提升”與“通用能力保持”的難題。R1V2.0藉助Skywork-VL Reward提供的偏好信號,引導模型進行偏好一致性優化,從而確保模型在多任務、多領域下具備良好的通用適應能力。此外,R1V2.0在訓練深度推理能力時,採用了基於規則的羣體相對策略優化GRPO方法,通過同組候選響應之間的相對獎勵比較,引導模型學會更精準的選擇和推理路徑。

持續開源,推動AGI發展

崑崙萬維一直致力於推動人工智能的開源和創新。R1V2.0的開源,是崑崙萬維在多模態領域的重要里程碑。該模型的38B權重和完整技術報告已在Hugging Face和GitHub上全面開源,開發者可以自由訪問和使用這些資源。

崑崙萬維表示,開源驅動創新,AGI終將到來。R1V2.0不僅推動了開源多模態大模型在能力邊界上的突破,更爲多模態智能體的搭建提供了新的基座模型。未來,崑崙萬維將繼續秉持“開源、開放、共創”的理念,持續推出領先的大模型與數據集,賦能開發者,推動行業協同創新,加速通用人工智能(AGI)的實現進程。

-代碼倉庫:

https://github.com/SkyworkAI/Skywork-R1V