智譜は今日、一部の企業顧客に対してGLM-5.1高速版API(GLM-5.1-highspeed)を正式に提供開始しました。このモデルの出力速度は驚くべき< strong style="text-indent: 2em;">400tokens/sに達し、現在の世界中の大規模モデルメーカーのAPIの速度上限を新たに記録しました。

業界ではこれまで「高性能モデルは必然的に高遅延になる」「高速モデルは軽量モデルに限られる」という常識がありました。GLM-5.1高速版は初めて中国国内の大規模モデルで、エリートクラスのモデル性能と極めて低遅延を同時に生産環境に導入し、ユーザーが応答速度のためにモデルの品質を犠牲にすることなく済むようになりました。

QQ20260522-094638.jpg

従来の体験を打ち破り、スピードに敏感な場面を直撃

長距離タスクや複雑な生産環境において、スピードの向上により製品形態が質的な変化を遂げました:

  • AIプログラミング(Coding Agent): GLM-5.1の強力な能力を完全に保持した上で、新モデルは「質問すると即座に答え」る機能を実現しました。モデルはプロジェクトの文脈を理解しながら、コードと修正案を継続的に生成できます。数十回の呼び出しが必要なリファクタリングプロジェクトでは、数分間の待機時間が完全に解消されました。

  • リアルタイム動的モデリング: 3Dマップの実測では、プレイヤーがキャラクターを操作してテキストを入力するだけで、モデルは瞬時にモデリングを行い、シーンをリアルタイムで変更できます。

  • Agent Swarm並行スケジューリング: 長時間のタスクにおいて、モデルは30秒以内に複雑なウェブページ処理を完了し、50個の異なる人格を持つエージェントを瞬時に並列して回答させることができ、新しいオペレーティングシステムの原型を示しています。

技術の核心を明らかにする:TileRT高性能推論エンジン

400TPSの安定したプロダクションレベルの能力は、智譜 GLMチームTileRTチームによるシステム全体の最適化によって実現されています:

  1. 推論エンジン層(TileRTコンパイル期AOT静的配置):

    従来の主流フレームワークは演算子(operator/kernel)を基本的なスケジューリング単位としています。これは単トークン、小バッチのシナリオでスケジューリング、メモリアクセス、同期のコストを拡大します。TileRTはRuntime層の動的スケジューリングを完全に放棄し、コンパイル期(AOT)において計算グラフを静的に配置し、GPUに常駐するpersistent Engine Kernelとして構成しています。単一のGPU内で、計算、非同期IO、および通信がタイルレベルのマイクロタスクに分割され、全体の推論は一度だけKernelを起動し、中間結果はレジスター、Shared Memory、L2キャッシュを通じて直接送信され、グローバルメモリには書き戻されません。

  2. スケジュールシステム層:

    動的バッチ処理、リクエストの統合、KVキャッシュのスケジューリング最適化により、高同時接続状況での尾部遅延が顕著に低下しました。

  3. インフラストラクチャ層:

    マルチカードスケールにおいて、TileRTはSM内部のWarp Specializationの考えを8枚のNVLトポロジー全体に拡張しました。異なるGPUランクは計算密度とデータ依存性に基づいて異なるワーカーに特化し、ネットワークリンクと負荷均等化を組み合わせて最適化し、高性能の安定した運用を確保します。

オープン計画

GLM-5.1高速版は、応答遅延が非常に重要なAIプログラミング、リアルタイムインタラクティブ、ビジネス意思決定、リアルタイム音声などのシナリオに適しています。現在このサービスは正式に智譜 MaaSプラットフォーム