最近、快智萬一はブランドニューモデルSkywork-R1V3.0を正式に公開し、マルチモーダルリーズニングにおいて前例ないレベルに達したと発表しました。これは人間のジュニアエキスパートと同等であるとされています。トレーニングプロセスでは強化学習戦略を採用し、複雑な論理モデリングや横断的知識の汎化において顕著な進歩を遂げました。
Skywork-R1V3.0は、前の世代のSkywork-R1V2.0をもとに「ブートストラップ」されたもので、高品質な抽出データとリジェクトサンプリング技術を使用して、パワフルなマルチモーダルリーズニングトレーニングセットを成功裏に構築しました。このモデルの設計はテキストに限らず、画像処理も含んでおり、画像とテキスト間の推論能力が大幅に向上しています。
紹介によると、Skywork-R1V3.0のトレーニングには約12,000件の監督付きファインチューニングサンプルと13,000件の強化学習サンプルしか使用されていないため、「少量のデータで大きな能力を引き出す」独自の利点を示しています。権威ある包括的なマルチモーダル評価MMMUでは、Skywork-R1V3.0は76.0点を記録し、Claude-3.7-Sonnet(75.0点)やGPT-4.5(74.4点)などの非オープンソースモデルを上回り、その優れたクロスモーダル理解能力を証明しています。
具体的な応用シナリオにおいて、Skywork-R1V3.0は物理、論理、数学的推論などの複数の分野で優れた性能を示しています。例えば、物理的推論評価では、開発者向け最高得点の52.8と31.5を達成し、複雑な物理問題を理解する能力を示しています。また、論理的推論テストでは、Skywork-R1V3.0は優れた得点59.7を記録しました。
数学的推論でも優れた性能を発揮しており、MathVista、MathVerse、MathVisionなどの評価でそれぞれ77.1、59.6、52.6の高い得点を記録し、他のオープンソースモデルを大きく上回っています。これらの優れたパフォーマンスにより、Skywork-R1V3.0は現在のオープンソースマルチモーダルリーズニング分野における強力な競争相手となっています。