5月22日,智譜(02513.HK)在資本市場與技術端同步引爆行業。伴隨其港股盤中一度飆升超22%、市值站穩4500億港元關口,智譜官方正式面向企業客戶上線了重磅新品——GLM-5.1高速版 API(GLM-5.1-highspeed)

該模型在保留旗艦大模型完整基座能力的前提下,實測輸出速度達到了驚人的 400tokens/s(每秒輸出400個標記),一舉刷新了當前全球大模型廠商官方 API 的速度上限。這一速度意味着:一位創作者連續伏案數天才能碼出的文字量,它在1分鐘內便能交付完畢;原本需要工程師敲鍵盤3天的系統重構任務,它在一杯咖啡的時間裏就能徹底跑完。

核心看點:

  • 打破慣例: 過去行業普遍默認“快意味着模型小/輕量級”,智譜首次在國產大模型中實現了**“旗艦級全尺寸能力”與“極致低延遲”**的完美並存。

  • 硬核戰績: 輸出速度達400tokens/s,支持 200K 超長上下文窗口最大單次輸出達128K 標記。

  • 底層黑科技: 由智譜 GLM 團隊與 TileRT 團隊深度聯合打造,重構了系統級推理生態。

  • 定向公測: 現已通過智譜 MaaS(大模型即服務)開放平臺向部分特定企業客戶定向開放。

“即問即答”有多爽?對速度敏感型場景的“降維打擊”

在過去的一年裏,國內大模型的 Coding(編程)和 Agent(智能體)協作能力突飛猛進,但“速度”始終是長鏈路、高頻交互任務下的核心瓶頸。智譜官方指出,大模型從“工具”演變爲“實時夥伴”,400tokens/s 的體感是顛覆性的:

  • AI 編程(Coding Agent): 傳統的智能體編程往往需要經歷幾十輪的跨文件調用與長文本對齊。單輪響應若卡頓幾秒,整體任務就會拉長到十幾分鍾。在高速版加持下,寫代碼如同開啓10倍速,函數、接口與底層調用鏈隨着用戶鍵盤敲擊同步瞬時展開,大型工程重構無需任何空等。

  • 實時交互與3D遊戲: 極低延遲讓模型能夠完美勝任遊戲世界內的實時動態生成、網頁 UI 的即時構建,能夠跟隨用戶的連續輸入,毫無滯後地改變系統狀態與界面反饋。

  • 商業決策集羣: 在多智能體(Multi-Agent)並行推演、實時大數據分析場景下,高速版支持“30秒內完成複雜網頁 Agent 集羣的多人格並行應答”,大幅拉高了高頻量化與推演的效率天花板

  • 無縫實時語音: 在 AI 陪練、智能客服場景中,極速響應能讓語音識別(ASR)到合成(TTS)的鏈路延遲無限趨近於零,帶來真正對等、自然的人類對話流。

拆解三層黑科技:400tokens/s 是如何煉成的?

這一全球速度紀錄的誕生,核心在於智譜 GLM 團隊與 TileRT 團隊 聯合打造的系統級工程優化。400tokens/s 不是一個好看的“瞬間峯值”,而是一個穩定可用的生產級能力,其底層優化邏輯分爲三個層面:

[基礎設施層:集羣/負載均衡協同] ──► [調度系統層:動態批處理 & KV Cache 調度] ──► [推理引擎層:TileRT 架構重寫核心路徑] ──►400tokens/s 穩定輸出
  1. 推理引擎層(TileRT 深度定製): 針對 GLM-5.1獨有的網絡架構特點,團隊徹底重寫了最核心的推理路徑與底層算子,讓單張顯卡(GPU)的吞吐能力和硬件執行效率逼近物理極限。

  2. 調度系統層(智能合併): 引入了極爲激進的動態批處理(Dynamic Batching)、請求合併技術以及顛覆性的 KV 緩存(KV Cache)調度優化,徹底解決了高併發、多用戶調用狀態下,傳統模型極易出現的拖尾延遲(Tail Latency)現象。

  3. 基礎設施層(集羣協同): 圍繞推理集羣的組網部署、網絡鏈路拓撲以及超高頻負載均衡進行了全方位的硬件級協同調優,確保算力在整條流水線上無損傳遞。

行業重估:AI 下半場是“價值與時間”的清算

正如瑞銀等國際頂級分析機構近期在港股科技論壇上所強調的:這一輪 AI 驅動的行業重估,與移動互聯網時代的“流量與時長變現”本質不同。AI 的收費和生存哲學,不是爲了把用戶耗在軟件裏,而是“幫用戶和企業省時間、提效率,並從創造的實際價值中進行分賬”。

智譜 GLM-5.1高速版的推出,完美踩在了這個邏輯的痛點上。它通過將單次 Token 的產出成本與時間成本壓縮到原來的數分之一,讓企業在部署高頻多 Agent 系統時,不再需要在“要高智能(選大模型卻很慢)”和“要速度(選小模型卻很笨)”之間做痛苦的妥協。

隨着智譜在 MaaS 平臺上的定向鋪開,這一低延遲、高智能的“生產級 AI 能力”,無疑將加速國內軟件生態、自動化編程及遊戲產業向全面“Agentic(智能體化)”時代的迭代升級。