ステップスターチームは、最新の第3世代ベース大規模モデル「Step3」が正式にオープンソースになったことを発表しました。Step3は、パフォーマンスとコストの最適なバランスを追求する企業や開発者向けに設計されたモデルで、推論時代に最も適したモデルの構築を目指しています。このモデルのオープンソースの場所はGitHub、Hugging Faceおよび魔搭ModelScopeであり、開発者は自由にダウンロードして体験できます。
Step3はMoEアーキテクチャを採用し、総パラメータ数は3210億、アクティブパラメータ数は380億です。これは、強力な視覚的認識と複雑な推論能力だけでなく、多分野の複雑な知識理解、数学と視覚情報の交差分析、日常生活におけるさまざまな視覚分析問題を正確に解決できる能力を持っています。MFA(Multi-matrix Factorization Attention)およびAFD(Attention-FFN Disaggregation)の最適化により、Step3はすべてのチップ上で推論効率が大幅に向上しています。また、AFDシナリオ専用のStepMesh通信ライブラリもモデルと共にオープンソースされ、ハードウェアを問わない標準的なデプロイインターフェースを提供し、実際のサービスでの重要なパフォーマンスの安定した再現性をサポートしています。
Step3のコア構造は独自のMFAアテンションメカニズムを採用しており、アテンション計算におけるKVキャッシュのコストと演算資源の消費を効果的に削減しています。モデルの能力を損なうことなく、リソース利用と推論効率のバランスを実現し、8×48GBのGPUで大容量の推論が可能となり、実際にデプロイする可行性があります。マルチモーダル機能に関しては、5B Vision Encoderを採用し、2層の2D畳み込みにより視覚特徴を低解像度化し、視覚トークン数を元の1/16にまで減少させ、文脈長の負荷を軽減し、推論効率を向上させています。トレーニングプロセスは2段階に分けられます:第一段階ではEncoderの認識力を強化し、第二段階では視覚エンコーダーを固定し、主干と接続層のみを最適化して勾配の干渉を減らします。トレーニングデータはPair、Interleave、多タスクデータを含んでおり、クリーニングの段階で類似度フィルタリング、再サンプリング、タスクの比率制御を導入し、画像とテキストの協調品質とトレーニングのロバスト性をさらに向上させています。
Step3はシステムアーキテクチャレベルでデコードプロセスを再構築し、アテンションとFFNの混合実行によって引き起こされる推論のボトルネックとリソースの不一致問題を重点的に解決しています。そのため、チームは高性能なAFDソリューションを実装し、2つの計算タスクを2つのサブシステムに分離し、マルチレベルパイプライン並列スケジューリングを通じて全体のスループット効率を効果的に向上させました。サブシステム間のデータ伝送には非常に高い要件があるため、チームはAFDシナリオ専用のStepMesh通信ライブラリを開発し、GPU Direct RDMAを基盤として、カード間の低遅延かつ高帯域幅の伝送を実現し、GPU計算リソースを占有しない、さまざまな異種ハードウェアへの対応などの利点を持っています。50msのデコードSLAの下で、Step3はHopper GPU上のスループットが4039token/gpu/sに達し、同様の設定においてDeepSeek V3(2324token/gpu/s)よりも顕著に高く、特定のハードウェアと長文のシナリオではさらに300%の性能向上が見込まれます。
Step3はMMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench(2024.08-2025.05)などの評価セットでテストされました。これらのモデルの中で、Step3は業界内でトップクラスの成績を収めています。例えば、「ビジネスランチの席順を配置する」というタスクにおいて、Step3は図中の構造を認識し、礼儀規則、役割関係、空間論理を自動的に解析し、中国の社交マナーに基づいて12人の役割分布の論理を推論し、最終的に「主賓-主陪」のグローバルな席順案を明確な役割と明確な位置、合理的な構造で出力し、表とASCII図を使って直感的に示します。カロリー計算タスクでは、Step3は複雑なレシートを見識し、料理を分類し、カロリーを対応させ、最終的に2人で1食で合計5710キロカロリーを摂取したことが推定され、一人当たり2855キロカロリーになりました。このプロセスでは、原始データから結論への説明まで、論理が明確で完璧なサイクルでした。
Step3APIはステップスターチームのオープンプラットフォーム(platform.stepfun.com)に公開されています。開発者は「ステップAI」公式サイト(stepfun.com)および「ステップAI」アプリ(アプリストアで検索・ダウンロード)でも体験できます。モデルは限定価格で販売中であり、すべてのリクエストは最低価格で計算され、100万トークンあたりの入力価格は1.5元、出力価格は4元です。
Github:https://github.com/stepfun-ai/Step3
Hugging Face:https://huggingface.co/stepfun-ai/step3
魔搭ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8