智譜發佈GLM-5. 1 高速版：400 tokens/s飆出全球API新極限

5月22日，智譜（02513.HK）在資本市場與技術端同步引爆行業。伴隨其港股盤中一度飆升超22%、市值站穩4500億港元關口，智譜官方正式面向企業客戶上線了重磅新品——GLM-5.1高速版 API（GLM-5.1-highspeed）。

該模型在保留旗艦大模型完整基座能力的前提下，實測輸出速度達到了驚人的 400tokens/s（每秒輸出400個標記），一舉刷新了當前全球大模型廠商官方 API 的速度上限。這一速度意味着:一位創作者連續伏案數天才能碼出的文字量，它在1分鐘內便能交付完畢;原本需要工程師敲鍵盤3天的系統重構任務，它在一杯咖啡的時間裏就能徹底跑完。

核心看點:
打破慣例: 過去行業普遍默認“快意味着模型小/輕量級”，智譜首次在國產大模型中實現了**“旗艦級全尺寸能力”與“極致低延遲”**的完美並存。
硬核戰績: 輸出速度達400tokens/s，支持 200K 超長上下文窗口，最大單次輸出達128K 標記。
底層黑科技: 由智譜 GLM 團隊與 TileRT 團隊深度聯合打造，重構了系統級推理生態。
定向公測: 現已通過智譜 MaaS（大模型即服務）開放平臺向部分特定企業客戶定向開放。

“即問即答”有多爽?對速度敏感型場景的“降維打擊”

在過去的一年裏，國內大模型的 Coding（編程）和 Agent(智能體)協作能力突飛猛進，但“速度”始終是長鏈路、高頻交互任務下的核心瓶頸。智譜官方指出，大模型從“工具”演變爲“實時夥伴”，400tokens/s 的體感是顛覆性的:

AI 編程（Coding Agent）: 傳統的智能體編程往往需要經歷幾十輪的跨文件調用與長文本對齊。單輪響應若卡頓幾秒，整體任務就會拉長到十幾分鍾。在高速版加持下，寫代碼如同開啓10倍速，函數、接口與底層調用鏈隨着用戶鍵盤敲擊同步瞬時展開，大型工程重構無需任何空等。
實時交互與3D遊戲: 極低延遲讓模型能夠完美勝任遊戲世界內的實時動態生成、網頁 UI 的即時構建，能夠跟隨用戶的連續輸入，毫無滯後地改變系統狀態與界面反饋。
商業決策集羣: 在多智能體（Multi-Agent）並行推演、實時大數據分析場景下，高速版支持“30秒內完成複雜網頁 Agent 集羣的多人格並行應答”，大幅拉高了高頻量化與推演的效率天花板。
無縫實時語音: 在 AI 陪練、智能客服場景中，極速響應能讓語音識別（ASR）到合成(TTS)的鏈路延遲無限趨近於零，帶來真正對等、自然的人類對話流。

拆解三層黑科技:400tokens/s 是如何煉成的?

這一全球速度紀錄的誕生，核心在於智譜 GLM 團隊與 TileRT 團隊 聯合打造的系統級工程優化。400tokens/s 不是一個好看的“瞬間峯值”，而是一個穩定可用的生產級能力，其底層優化邏輯分爲三個層面:

[基礎設施層:集羣/負載均衡協同] ──► [調度系統層:動態批處理 & KV Cache 調度] ──► [推理引擎層:TileRT 架構重寫核心路徑] ──►400tokens/s 穩定輸出

推理引擎層（TileRT 深度定製）: 針對 GLM-5.1獨有的網絡架構特點，團隊徹底重寫了最核心的推理路徑與底層算子，讓單張顯卡（GPU）的吞吐能力和硬件執行效率逼近物理極限。
調度系統層（智能合併）: 引入了極爲激進的動態批處理（Dynamic Batching）、請求合併技術以及顛覆性的 KV 緩存(KV Cache)調度優化，徹底解決了高併發、多用戶調用狀態下，傳統模型極易出現的拖尾延遲(Tail Latency)現象。
基礎設施層（集羣協同）: 圍繞推理集羣的組網部署、網絡鏈路拓撲以及超高頻負載均衡進行了全方位的硬件級協同調優，確保算力在整條流水線上無損傳遞。

行業重估:AI 下半場是“價值與時間”的清算

正如瑞銀等國際頂級分析機構近期在港股科技論壇上所強調的:這一輪 AI 驅動的行業重估，與移動互聯網時代的“流量與時長變現”本質不同。AI 的收費和生存哲學，不是爲了把用戶耗在軟件裏，而是“幫用戶和企業省時間、提效率，並從創造的實際價值中進行分賬”。

智譜 GLM-5.1高速版的推出，完美踩在了這個邏輯的痛點上。它通過將單次 Token 的產出成本與時間成本壓縮到原來的數分之一，讓企業在部署高頻多 Agent 系統時，不再需要在“要高智能（選大模型卻很慢）”和“要速度(選小模型卻很笨)”之間做痛苦的妥協。

隨着智譜在 MaaS 平臺上的定向鋪開，這一低延遲、高智能的“生產級 AI 能力”，無疑將加速國內軟件生態、自動化編程及遊戲產業向全面“Agentic（智能體化）”時代的迭代升級。

智譜發佈GLM-5. 1 高速版：400 tokens/s飆出全球API新極限

“即問即答”有多爽?對速度敏感型場景的“降維打擊”

拆解三層黑科技:400tokens/s 是如何煉成的?

行業重估:AI 下半場是“價值與時間”的清算

相關推薦

階躍星辰首款AI智能體手機即將發佈，跑在OpenAI前面

港股AI板塊熱度不減：智譜、MiniMax解禁日表現搶眼

MiniMax計劃推出新一代大模型參數規模2.7萬億

智譜完成約314億港元配售資金將用於大模型技術研發與算力建設

階躍星辰將發佈全球大模型廠商首款AI智能體手機

智譜發佈GLM-5. 1 高速版：400 tokens/s飆出全球API新極限

“即問即答”有多爽?對速度敏感型場景的“降維打擊”

拆解三層黑科技:400tokens/s 是如何煉成的?

行業重估:AI 下半場是“價值與時間”的清算

相關推薦

階躍星辰首款AI智能體手機即將發佈，跑在OpenAI前面

港股AI板塊熱度不減：智譜、MiniMax解禁日表現搶眼

MiniMax計劃推出新一代大模型 參數規模2.7萬億

智譜完成約314億港元配售 資金將用於大模型技術研發與算力建設

階躍星辰將發佈全球大模型廠商首款AI智能體手機

MiniMax計劃推出新一代大模型參數規模2.7萬億

智譜完成約314億港元配售資金將用於大模型技術研發與算力建設