階躍星辰團隊宣佈其最新一代基礎大模型 Step3正式開源。Step3是一款專爲追求性能與成本極致均衡的企業和開發者設計的模型,旨在面向推理時代打造最適合應用的模型。該模型的開源地址包括 Github、Hugging Face 和魔搭 ModelScope,開發者可以自由下載體驗。

Step3採用 MoE 架構,總參數量達到3210億,激活參數量爲380億。它不僅擁有強大的視覺感知和複雜推理能力,還能準確完成跨領域的複雜知識理解、數學與視覺信息的交叉分析,以及日常生活中的各類視覺分析問題。通過 MFA(Multi-matrix Factorization Attention)和 AFD(Attention-FFN Disaggregation)的優化,Step3在各類芯片上的推理效率均大幅提升。此外,面向 AFD 場景的 StepMesh 通信庫也已隨模型一同開源,提供可跨硬件的標準部署接口,支持關鍵性能在實際服務中的穩定復現。

微信截圖_20250801082013.png

Step3的核心結構採用自研 MFA 注意力機制,有效降低注意力計算中的 KV 緩存開銷與算力消耗。在不犧牲模型能力的前提下,這一方案實現了資源利用與推理效率的平衡,使得模型可在8×48GB 顯卡上完成大吞吐量推理,具備真實部署的可行性。多模態能力方面,Step3採用5B Vision Encoder,並通過雙層2D 卷積對視覺特徵進行降採樣,將視覺 token 數量減少到原來的1/16,減輕上下文長度壓力,提升推理效率。訓練過程分爲兩個階段:第一階段強化 Encoder 感知,第二階段凍結視覺編碼器,僅優化主幹與連接層,以減少梯度干擾。訓練語料涵蓋 Pair、Interleave 與多任務數據,在清洗環節中引入相似度過濾、重採樣與任務比例控制,進一步提升圖文協同質量與訓練魯棒性。

Step3在系統架構層重構瞭解碼流程,重點解決 Attention 與 FFN 混合執行帶來的推理瓶頸以及資源不匹配問題。爲此,團隊實現了高性能的 AFD 方案,將兩類計算任務解耦成爲兩個子系統,並通過多級流水線並行調度,有效提升整體吞吐效率。由於解耦後的子系統之間對數據傳輸有極高要求,團隊同時研發了面向 AFD 場景的 StepMesh 通信庫,基於 GPU Direct RDMA 實現跨卡的低延遲和高帶寬傳輸,同時兼備不佔用 GPU 計算資源、適配多類異構硬件等優勢。在50ms 解碼的 SLA 前提下,Step3在 Hopper GPU 上的吞吐達到4039token/gpu/s,顯著高於類似設置下的 DeepSeek V3(2324token/gpu/s),且該性能增益在特定硬件與長文場景會進一步放大至300%。

Step3在 MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05)等評測集上進行了測試,在同類型開源模型中,Step3成績行業領先。例如,在“安排商務宴座”的任務中,Step3能夠識別圖中結構,自動解析禮儀規則、角色關係與空間邏輯,再結合中文社交禮儀推理出完整12人角色分佈邏輯,最終輸出了角色明確、位置清晰、結構合理的“主賓-主陪”全局排座方案,並用表格+ASCII 圖直觀展示。在卡路里計算任務中,Step3能夠看懂複雜的小票,把菜品歸類、對上熱量,最終估算出2人一頓飯總共吃了5710大卡,人均2855大卡,整個過程從原始數據到結論解釋,邏輯清晰,一整個閉環。

Step3API 已上線階躍星辰開放平臺(platform.stepfun.com),開發者也可以在“階躍 AI”官網(stepfun.com)和“階躍 AI”App(應用商店搜索下載)進行體驗。模型限時折扣中,所有請求均按最低價格計算,每百萬 token 價格低至輸入1.5元,輸出4元。

Github:https://github.com/stepfun-ai/Step3

Hugging Face:https://huggingface.co/stepfun-ai/step3

魔搭ModelScope:

https://www.modelscope.cn/models/stepfun-ai/step3

https://www.modelscope.cn/models/stepfun-ai/step3-fp8