4月24日、昆侖万維は、多様なモダリティ推論モデルSkywork-R1V2.0(以下R1V2.0)の正式オープンソース化を発表しました。このアップグレード版は、視覚とテキストの推論能力の両方を大幅に向上させており、特に大学入試理系科目の難問の深層推論や一般的なタスクシナリオで優れた性能を発揮し、現在、視覚とテキストの推論能力の両方を最もバランス良く備えたオープンソースの多様なモダリティモデルと言えるでしょう。
R1V2.0のオープンソース化は、昆侖万維の多様なモダリティ分野における技術力の証であるだけでなく、世界中の開発者や研究者にとって強力なツールを提供し、多様なモダリティエコシステムの構築を促進します。このモデルは、複数の権威あるベンチマークテストでオープンソースSOTA記録を更新し、商用クローズドソースモデルに匹敵する能力を示しました。
性能が全面的に向上し、中国語シーンをリード
R1V2.0は中国語シーンでのパフォーマンスが特に優れており、特に理系科目(数学、物理、化学)の問題の推論効果において、無料のAI解答アシスタントと言えるでしょう。このモデルは、MMMUで73.6点という優れた成績を収め、オープンソースSOTA記録を更新しただけでなく、Olympiad Benchでも62.6点を達成し、他のオープンソースモデルを大きくリードしています。さらに、MathVision、MMMU-PRO、MathVistaなどの複数の視覚推論ランキングで、R1V2.0は優れた成績を収めており、多くの能力がクローズドソースの商用モデルに匹敵するレベルに達しています。
テキスト推論においては、R1V2.0はAIME2024とLiveCodeBenchのチャレンジでそれぞれ78.9点と63.6点を獲得し、人間の専門家レベルの数学とコードの理解能力を示しました。これらの結果は、R1V2.0が視覚推論において優れた性能を発揮するだけでなく、テキスト推論においても卓越した能力を備えていることを示しています。
技術的ハイライト:多様なモダリティ報酬モデルと混合選好最適化
R1V2.0のパフォーマンス向上は、複数の技術革新によるものです。その中でも最も注目すべきは、新たに導入された多様なモダリティ報酬モデルSkywork-VL Rewardと混合選好最適化メカニズム(MPO)です。
Skywork-VL Rewardモデルは、多様なモダリティ強化学習に高品質な報酬シグナルを提供し、多様なモダリティ推論モデルの長シーケンス出力の全体的な品質を正確に評価できます。このモデルは、視覚報酬モデル評価ランキングVL-RewardBenchで73.1というSOTA成績を収め、純粋なテキスト報酬モデル評価ランキングRewardBenchでも90.1という優れたスコアを獲得し、多様なモダリティとテキストタスクにおける強力な汎化能力を全面的に示しました。
MPOメカニズムは、複数の損失関数を導入して協調的に最適化することで、大規模モデルのトレーニングにおける「深層推論の向上」と「汎用能力の維持」という課題を解決します。R1V2.0は、Skywork-VL Rewardが提供する選好シグナルを利用して、モデルの選好整合性最適化を導き、多様なタスクや分野で優れた汎用適応能力を確保します。さらに、R1V2.0は深層推論能力のトレーニングにおいて、ルールベースの集団相対戦略最適化GRPO法を採用し、グループ内の候補応答間の相対的な報酬比較を通じて、モデルがより正確な選択と推論経路を学習することを促します。
継続的なオープンソース化、AGIの発展を促進
昆侖万維は、人工知能のオープンソース化とイノベーションを推進することに尽力しています。R1V2.0のオープンソース化は、昆侖万維における多様なモダリティ分野の重要なマイルストーンです。このモデルの38Bの重みと完全な技術レポートは、Hugging FaceとGitHubで全面的にオープンソース化されており、開発者はこれらのリソースに自由にアクセスして使用できます。
昆侖万維は、オープンソースがイノベーションを促進し、AGIが最終的に実現すると述べています。R1V2.0は、オープンソースの多様なモダリティ大規模モデルの能力限界の突破を促進するだけでなく、多様なモダリティインテリジェントエージェントの構築のための新しい基盤モデルを提供します。「オープン、オープン、共創」という理念を堅持し、今後も最先端の大規模モデルとデータセットを継続的に提供し、開発者を支援し、業界の協調的なイノベーションを促進し、汎用人工知能(AGI)の実現プロセスを加速していきます。
-モデルウェイト:
Hugging Face - Skywork-R1V2.0-38B
-コードリポジトリ:
GitHub - SkyworkAI/Skywork-R1V
-技術レポート:
https://arxiv.org/abs/2504.16656