ステップスターラン(Stepfun)はこのほど、最新のオープンソースベースモデルであるStep3.5Flashを正式にリリースしました。このモデルはエージェント(Agent)シーンに特化しており、強力な推論能力と最適な応答速度により、開発者にさらに賢く、安定し、コストを制御できる「エージェントの脳」を提供することを目的としています。

image.png

パーソナライズ性が非常に高い軽量モデルとして、Step3.5Flashは複数の面で革新を遂げています:

  • 極限の速度: 推論速度は最大で350TPS(1秒間に生成される単語数)であり、特にコード関連のタスクにおいて優れた性能を発揮します。

  • 閉じたソースと同等の性能: エージェントのコアシナリオや数学的論理タスクにおいて、主流の閉鎖型大規模モデルと同等の性能を発揮します。

  • 長い論理的なタスクの保証: 複雑で長い論理的なタスクを処理する安定性があり、256Kの超長文脈を効率的に扱うことができます。

技術構造:効率と深さの両立

Step3.5Flashは高度なスパースMoE(Mixed Expert)構造を採用しており、総パラメータ数は1960億ですが、各トークンごとにアクティブになるパラメータ数は約110億です。さらに効率を向上させるために、MTP-3技術を導入し、一度に3つのトークンを予測することで効率が倍増しています。また、スライディングウィンドウとグローバルアテンションの混合構造により、長文内の「重要なポイント」を正確に捉えることができ、計算コストを大幅に削減しています。

多様なシナリオでの実験結果:コードからエッジクラウド協働まで

実際の応用デモでは、Step3.5Flashは多様な才能を示しました:

  • スマートプログラミング: 一言の説明だけで、WebGL2.0エンジンに基づいた高性能な可視化プラットフォームを自動的に作成・出力できます。

  • 複雑な計算: 外部ツールを使用せずに、等差数列の和や階乗の合計などの高難度の数学演算を迅速に行うことができます。

  • エッジクラウド協働: 「クラウド上の脳」として、ユーザーの曖昧な要望(例えば、各プラットフォームの価格を比較するなど)を具体的な検索および取得のサブタスクに分解し、ローカル実行端の難易度を大幅に簡略化し、結果の信頼性を確保します。

現在、Step3.5Flashは主要なプラットフォームで完全にリリースされており、GitHub、HuggingFace、OpenRouterを含みます。個人ワークステーション(NVIDIA DGX、Apple M4Maxなど)でのモデル実行性能を低下させることなく、開発者のローカル配置のハードルを下げるため、ステップスターランは特別に最適化を行いました。さらに、会社はすでにStep4モデルのトレーニングを開始し、世界中の開発者に次世代のエージェントベースモデルを共に定義するよう招待しています。

  • OpenRouterで無料利用中、エージェントを0円でアップグレードしてください: https://openrouter.ai/stepfun/step-3.5-flash

  • GitHubでダウンロードし、素早く展開して独自のエージェントを作成してください: https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

  • HuggingFaceでモデルの重みを入手してください: https://huggingface.co/stepfun-ai/Step-3.5-Flash