
在核心性能测试中,
此次开源涵盖了 Base 和 Thinking 两个版本。得益于创新的并行协调推理机制(PaCoRe),模型在处理高精度 OCR、复杂计数及空间拓扑理解等任务时表现尤为稳健。这意味着原本依赖云端运行的复杂多模态推理能力,现在可以更低成本地部署在手机、电脑等端侧设备上,大幅提升了端侧 Agent 的交互效率。
项目主页:https://stepfun-ai.github.io/Step3-VL-10B/
论文链接:https://arxiv.org/abs/2601.09668
HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
划重点:
🚀 小参数跨级反超:
以10B 规模挑战并超越了200B 级的巨量模型,实现了性能与规模的极致杠杆比。Step3-VL-10B 🧠 深层逻辑与感知:引入 PaCoRe 机制及大规模强化学习,在竞赛级数学、复杂 GUI 感知及3D 空间推理等领域达到世界顶尖水平。
📱 端侧智能下沉:支持高性能多模态能力在低算力设备运行,为手机和工业嵌入式设备的“主动理解与交互”提供了强力底座。
