ステップスターランクは、最新のマルチモーダル視覚言語モデルStep3-VL-10Bをオープンソース化することを発表しました。このモデルは10Bのパラメータ規模で、多くのベンチマークテストにおいて、階層を超えた競争力を持つことを示し、小規模なパラメータ数のモデルが高知能レベルを同時に達成するのが難しい業界の課題を成功裏に解決しました。

image.png

コア性能テストでは、Step3-VL-10Bは視覚認識、論理推論、数学コンテストなどの分野で同規模の最高峰の水準に達しており、パラメータ数が10〜20倍大きいオープンソースモデル(例えばQwen3-VL-Thinking235Bなど)や最高レベルの非公開エンドモデルと同等またはそれ以上に匹敵しています。全パラメータのエンドツーエンドマルチモーダル連合プリトレーニングと大規模な強化学習イテレーションにより、このモデルはAIMEなどの高難度数学コンテストのテストで世界トップクラスに位置しています。

今回のオープンソースにはBase版とThinking版の2つのバージョンが含まれています。革新的な並列調整推論メカニズム(PaCoRe)により、モデルは高精度OCR、複雑な数え上げおよび空間トポロジー理解などのタスクにおいて特に安定した性能を発揮します。これにより、これまでクラウドで実行されていた複雑なマルチモーダル推論能力が、より低コストでスマートフォンやパソコンなどのエッジデバイスに配置できるようになり、エッジエージェントのインタラクティブ効率が大幅に向上しました。

  • プロジェクトページ:https://stepfun-ai.github.io/Step3-VL-10B/

  • 論文リンク:https://arxiv.org/abs/2601.09668

  • HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

  • ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

重要なポイント:

  • 🚀 小パラメータで階層を越えてリード:Step3-VL-10Bは10B規模で200B級の巨大モデルを挑戦し、超えることで、パフォーマンスと規模の最適なレバレッジ比を実現しました。

  • 🧠 深い論理と感知:PaCoReメカニズムと大規模な強化学習を導入し、コンテストレベルの数学、複雑なGUI感知および3D空間推論などの分野で世界トップレベルに到達しました。

  • 📱 エッジ側のインテリジェンスの下がり:低演算力デバイスでも高性能マルチモーダル機能を実行できるようにし、スマートフォンや産業用埋め込みデバイスの「積極的な理解と相互作用」に強力な基盤を提供します。