昆仑万維は、世界初の産業向けマルチモーダル推論モデルSkywork R1V(略称「R1V」)を正式に発表しました。38億パラメーターを誇るこのモデルは、性能において著名なクローズドソースモデルDeepSeek-R1に匹敵し、複数のベンチマークテストで優れた成果を収め、最先端技術(SOTA)を凌駕しています。昆仑万維は、技術の共有と進歩を促進し、世界のAIオープンソースコミュニティに新たな活力を注入することを目的として、R1Vをオープンソース化することを選択しました。
R1Vは、その卓越したマルチモーダル推論能力で知られており、テキストと視覚情報をシームレスに統合し、強力な知能を示します。具体的には、R1Vは視覚的質問応答タスクにおいて、Claude3.5SonnetやGPT-4oなどのクローズドソースモデルと直接比較され、トップレベルのテキスト推論能力を維持しています。MMMUベンチマークテストでは、R1Vは69点の高得点で同規模モデルの新たな記録を樹立し、MathVistaテストでも67.5点という優れた成績を収め、複雑な数学的推論と論理分析における強力な能力を示しました。
R1Vの成功は、昆仑万維の研究チームによる複数の革新的技術によるものです。その中には、クロスモーダル転移学習が含まれており、この手法は、大規模モデルのテキスト推論能力を視覚モーダルに効果的に転移させ、マルチモーダル推論データの必要性を大幅に削減します。さらに、R1Vは、反復的な教師あり微調整と強化学習の組み合わせによる混合トレーニング戦略を採用し、思考連鎖の長さを動的に調整することで、推論効率を向上させています。特筆すべきは、R1Vが推論過程における「過剰思考」を回避するために、適応型長さ思考連鎖蒸留フレームワークを導入し、推論の効率と品質を大幅に向上させていることです。
R1Vの発表により、昆仑万維は世界で初めてマルチモーダル推論モデルをオープンソース化した企業となるだけでなく、AGI(汎用人工知能)実現の夢の実現に向けて重要な一歩を踏み出しました。モデルの重み、推論コード、技術レポートはすべて公開されており、誰でもGitHubとHugging Faceから関連リソースを入手できます。
モデルウェイトダウンロード
Hugging Face:
https://huggingface.co/Skywork/Skywork-R1V-38B
GitHub:
https://github.com/SkyworkAI/Skywork-R1V
詳細な技術レポート
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
要点:
🌟 世界初の産業向けオープンソースマルチモーダル推論モデルSkywork R1Vが正式にリリース、パラメーター数は38億。
🚀 R1Vは複数のベンチマークテストで優れた成果を収め、特にMMMUとMathVistaではそれぞれ69点と67.5点の高得点を獲得。
📚 昆仑万維のオープンソース化への取り組みは、技術共有を促進し、世界のAIオープンソースコミュニティに活力を与え、AGIの実現に貢献します。