
コア性能テストでは、
今回のオープンソースにはBase版とThinking版の2つのバージョンが含まれています。革新的な並列調整推論メカニズム(PaCoRe)により、モデルは高精度OCR、複雑な数え上げおよび空間トポロジー理解などのタスクにおいて特に安定した性能を発揮します。これにより、これまでクラウドで実行されていた複雑なマルチモーダル推論能力が、より低コストでスマートフォンやパソコンなどのエッジデバイスに配置できるようになり、エッジエージェントのインタラクティブ効率が大幅に向上しました。
プロジェクトページ:https://stepfun-ai.github.io/Step3-VL-10B/
論文リンク:https://arxiv.org/abs/2601.09668
HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
重要なポイント:
🚀 小パラメータで階層を越えてリード:
は10B規模で200B級の巨大モデルを挑戦し、超えることで、パフォーマンスと規模の最適なレバレッジ比を実現しました。Step3-VL-10B 🧠 深い論理と感知:PaCoReメカニズムと大規模な強化学習を導入し、コンテストレベルの数学、複雑なGUI感知および3D空間推論などの分野で世界トップレベルに到達しました。
📱 エッジ側のインテリジェンスの下がり:低演算力デバイスでも高性能マルチモーダル機能を実行できるようにし、スマートフォンや産業用埋め込みデバイスの「積極的な理解と相互作用」に強力な基盤を提供します。
