5月22日、智譜(02513.HK)は資本市場と技術面で同時に業界を巻き起こした。その株式が一時22%以上上昇し、時価総額が4500億HKドルを突破したことを受け、智譜は公式に企業向け顧客に対して重要な新製品としてGLM-5.1高速版 API(GLM-5.1-highspeed)を正式リリースした。

このモデルはエリート級の大規模モデルのすべての基本機能を保持しつつ、実際の出力速度は驚くべき400tokens/s(1秒間に400トークン出力)に達し、現在のグローバルな大規模モデルベンダーの公式APIの速度上限を刷新した。この速度の意味とは、あるクリエイターが何日もかけて書き上げる文章量が1分で完了すること、また従来のエンジニアが3日かけて行うシステムの再構築作業がコーヒー1杯分の時間で終わることである。

注目ポイント:

  • 慣例を破る: 過去には「速さ=モデルが小さい・軽い」という常識があったが、智譜は初めて国内の大規模モデルで**「エリート級の全サイズの能力」と「極限的な低遅延」**の両立を実現した。

  • 実績: 出力速度は400tokens/sに達し、200K以上の長文の上下文窓口をサポートし、最大単一出力は128Kトークンに達する。

  • 底辺のテクノロジー: 智譜のGLMチームとTileRTチームが深度的に協力して開発し、システムレベルの推論エコシステムを再構築した。

  • 限定公開: 現在、智譜のMaaS(大規模モデル即サービス)プラットフォームを通じて一部の特定企業向けに限定的に提供されている。

「即問即答」ってどれだけスムーズ?スピードに敏感なシーンへの「降圧的打撃」

昨年一年間、国内の大規模モデルのコーディング(プログラミング)およびエージェント(スマート体)の協力能力は飛躍的に向上したが、「スピード」は長距離・高頻度の対話タスクにおいて常に核心的な課題であった。智譜によると、大規模モデルが「ツール」から「リアルタイムパートナー」へと進化する過程で、400tokens/sという体感は画期的である:

  • AIプログラミング(Coding Agent): 伝統的なエージェントプログラミングは数十回のファイル間呼び出しや長文の整列が必要だった。1ラウンドの応答が数秒遅れれば、全体のタスクは十数分かかる。高速版によってコードを書くことは10倍速に近づき、関数、インターフェース、そして下位呼び出しチェーンがユーザーのキーボード入力と同時に瞬時に展開される。大型プロジェクトの再構築では一切待たずに済む。

  • リアルタイムのインタラクティブおよび3Dゲーム: 超低遅延により、モデルはゲーム世界内のリアルタイム動的生成やウェブUIの即時構築に対応でき、ユーザーの連続的な入力に合わせてシステム状態とインターフェースフィードバックを遅滞なく変化させる。

  • ビジネス意思決定クラスター: 多エージェント(Multi-Agent)並列シミュレーションやリアルタイムの大データ分析の場面で、高速版は「30秒以内に複雑なWebエージェントクラスターの多人格並列応答」を可能にし、高頻度の量化とシミュレーションの効率上限を大幅に引き上げる。

  • スムーズなリアルタイム音声: AIトレーニングやインテリジェントカスタマーサービスの場面では、超高速応答により音声認識(ASR)から合成(TTS)までの遅延をほぼゼロに近づけ、真正な双方向で自然な会話流を提供する。

3層のブラックテクノロジーを解剖:400tokens/sはどのように実現されたのか?

この世界記録の登場は、智譜GLMチームとTileRTチームが共同で構築したシステムレベルの工学最適化に起因する。400tokens/sは見栄えの良い「一時的なピーク値」ではなく、安定して利用可能な生産用の能力であり、その背後にある最適化ロジックは3つのレベルに分かれる:

[インフラストラクチャ層: クラスター/負荷分散の協調] ──► [スケジューリングシステム層: ダイナミックバッチング & KV キャッシュのスケジューリング] ──► [推論エンジン層: TileRTアーキテクチャのコアパスの再構築] ──►400tokens/sの安定出力
  1. 推論エンジン層(TileRTの深層カスタマイズ): GLM-5.1独自のネットワーク構造の特徴に応じて、チームは最も重要な推論パスと基礎演算子を完全に再構築し、GPU一枚の出力能力とハードウェアの実行効率を物理的限界に近づけた。

  2. スケジューリングシステム層(スマートマージ): 動的バッチング(Dynamic Batching)、要求のマージ技術、そして画期的なKVキャッシュ(KV Cache)スケジューリング最適化を導入し、高同時接続・多ユーザー呼び出し状況での従来モデルが抱えていた尾部遅延(Tail Latency)の問題を完全に解決した。

  3. インフラストラクチャ層(クラスター協調): 推論クラスターのネットワーク配置、ネットワークリンクトポロジーや超高周波の負荷分散について全面的なハードウェアレベルの協調調整を行い、計算能力が流水線上で損なわれないことを確保した。

業界の再評価:AIの後半戦は「価値と時間」の清算

ユーロ・ファイナンシャルなどの国際的なトップ分析機関が最近の香港株式市場のテクノロジーイベントで強調したように、今回のAI駆動の業界再評価は、モバイルインターネット時代の「流量と時間の収益化」と本質的に異なる。AIの収益と生存哲学は、ユーザーをソフトウェア内で長時間過ごさせることではなく、「ユーザーと企業が時間を節約し、効率を向上させ、実際に創造した価値から利益を得る」ことである。

智譜のGLM-5.1高速版の登場は、この論理の痛所に完璧に合致している。単一トークンの出力コストと時間コストを元の数分の一にまで圧縮することで、企業が高頻度かつ多数のエージェントシステムを導入する際に、「高知能(大規模モデルだが遅い)」と「スピード(小規模モデルだが愚か)」の間で苦悩する選択をしなくて済む。

智譜がMaaSプラットフォーム上で段階的に拡大していくことで、この低遅延・高知能の「生産用AI能力」は、国内のソフトウェアエコシステム、自動化プログラミング、およびゲーム業界が全面的に「エージェント化(Agentic)」の時代へと移行するのを加速させるだろう。