聯想今日宣佈,旗下首款 AMD AI 大模型訓練服務器——聯想問天 WA7785a G3在單機部署671B(滿血版) DeepSeek 大模型時,實現了高達6708token/s 的極限吞吐量,再次刷新了單臺服務器運行超大規模模型性能的紀錄。

據介紹,此次性能突破得益於聯想萬全異構智算平臺的強大支持。聯想通過訪存優化、顯存優化、創新的 PCIe5.0全互聯架構以及精選 SGLang 框架中的最優算子等一系列創新技術手段,對大模型從預訓練、後訓練到推理的全流程進行了持續優化。實測結果顯示,在單臺部署 DeepSeek671B 大模型的聯想問天 WA7785a G3服務器上,最高吞吐量達到了驚人的6708token/s。

GPU 芯片 (5)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在模擬問題對話場景(上下文序列長度128/1K)時,該服務器最高可支持158的併發數,TPOT(Time Per Output Token)爲93毫秒,TTFT(Time To First Token)爲2.01秒;而在模擬代碼生成場景(上下文序列長度512/4K)時,併發數可達140,TPOT 爲100毫秒,TTFT 爲5.53秒。聯想方面表示,這一性能表現意味着單臺聯想問天 WA7785a G3服務器即可支撐1500人規模企業的正常使用,是繼聯想問天 WA7780G3服務器單機部署滿血版 DeepSeek 大模型總吞吐量突破2500token/s 之後,在單機部署該大模型推理性能上的又一次重大飛躍。

聯想方面強調,此次技術突破是聯想中國基礎設施業務羣、聯想研究院 ICI 實驗室和 AMD 聯合設計、協同調優、共同實現的成果。同時,這並非最終結果,聯想與 AMD 仍在持續探索深度調優的新方法,以期實現更高的性能突破。