智譜今日正式面向部分企業客戶推出GLM-5.1高速版API(GLM-5.1-highspeed)。該模型輸出速度達到驚人的 400tokens/s,成功刷新當前全球大模型廠商 API 的速度上限。

打破了行業過去“高性能模型必然帶來高延遲”或“高速模型只能是輕量級模型”的慣例,GLM-5.1高速版首次在國產大模型中將旗艦級模型能力與極致低延遲同時帶入生產環境,用戶無需再爲響應速度而犧牲模型質量。

QQ20260522-094638.jpg

顛覆傳統體驗,直擊速度敏感場景

在長程任務和複雜生產環境中,速度的提升帶來了產品形態的質變:

  • AI 編程(Coding Agent):在完整保留 GLM-5.1強大能力的基礎上,新模型實現“即問即答”。模型能一邊理解工程上下文,一邊持續生成代碼與修改方案。在需要數十輪調用的重構項目中,徹底消除了累計數分鐘的空等。

  • 實時動態建模:在3D 地圖實測中,玩家控制角色移動並輸入文字,模型能夠瞬時完成建模並實時改變場景。

  • Agent Swarm 並行調度:在長程任務中,模型可在30秒內完成複雜網頁處理,並能瞬間調度50個不同人格並行回答,展現出新型操作系統的雛形。

核心技術揭祕:TileRT 高性能推理引擎

400TPS 的穩定生產級能力,得益於智譜 GLM 團隊TileRT 團隊聯合進行的系統級優化:

  1. 推理引擎層(TileRT 編譯期 AOT 靜態編排):

    傳統主流框架以算子(operator/kernel)作爲基本調度單元,在單 token、小 batch 場景下會放大調度、訪存與同步開銷。TileRT 徹底拋棄了 Runtime 層的動態調度,在編譯期(AOT)將整個計算圖靜態編排爲一個常駐 GPU 的 persistent Engine Kernel。在單卡內,計算、異步 IO 與通信被拆解爲 Tile 級微任務,整個推理只 Launch 一次 Kernel,中間結果通過寄存器、Shared Memory 和 L2Cache 直傳,不再寫回全局內存。

  2. 調度系統層:

    通過動態批處理、請求合併和 KV 緩存調度優化,顯著降低了高併發場景下的尾延遲。

  3. 基礎設施層:

    在多卡尺度上,TileRT 將 SM 內部的 Warp Specialization 思路擴展到整張8卡 NVL 拓撲,不同 GPU rank 依據計算密度與數據依賴被特化爲不同 worker,配合網絡鏈路與負載均衡協同優化,確保高性能的常駐穩定性。

開放計劃

GLM-5.1高速版適用於對響應延遲要求極高的 AI 編程、實時交互、商業決策以及實時語音等場景。目前該服務已正式上線智譜 MaaS 平臺並面向部分企業客戶開放。智譜官方表示,未來將持續推進推理引擎的工程優化,進一步擴大高速模型的服務能力。