
在覈心性能測試中,
此次開源涵蓋了 Base 和 Thinking 兩個版本。得益於創新的並行協調推理機制(PaCoRe),模型在處理高精度 OCR、複雜計數及空間拓撲理解等任務時表現尤爲穩健。這意味着原本依賴雲端運行的複雜多模態推理能力,現在可以更低成本地部署在手機、電腦等端側設備上,大幅提升了端側 Agent 的交互效率。
項目主頁:https://stepfun-ai.github.io/Step3-VL-10B/
論文鏈接:https://arxiv.org/abs/2601.09668
HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
劃重點:
🚀 小參數跨級反超:
以10B 規模挑戰並超越了200B 級的巨量模型,實現了性能與規模的極致槓桿比。Step3-VL-10B 🧠 深層邏輯與感知:引入 PaCoRe 機制及大規模強化學習,在競賽級數學、複雜 GUI 感知及3D 空間推理等領域達到世界頂尖水平。
📱 端側智能下沉:支持高性能多模態能力在低算力設備運行,爲手機和工業嵌入式設備的“主動理解與交互”提供了強力底座。
