近日,AMD 正式發佈了名爲 vLLM-ATOM 的全新插件。這款工具的核心使命是在維持現有工作流不變的前提下,顯著榨取硬件潛能,爲 DeepSeek-R1、Kimi-K2以及 gpt-oss-120B 等主流大語言模型的推理過程實現大幅提速。

對於開發者而言,vLLM 是一套旨在優化高併發場景下吞吐量與顯存利用率的開源框架。與傳統的單次調用工具不同,它更專注於請求調度與緩存管理。而此次 AMD 推出的 ATOM 插件,則是一套專爲 Instinct GPU 打造的深度定製方案。它最大的亮點在於“無感遷移”:企業用戶無需修改現有的 API 接口、命令或端到端操作流程,插件即可在後臺自動接管並完成底層的性能優化。

image.png

從技術架構上看,vLLM-ATOM 採用了精密的三層設計。頂層繼續沿用 vLLM 的請求調度與兼容接口;中間層的 ATOM 插件則負責模型實現與內核調優;而最底層的 AITER 則直接對接 GPU 硬件,提供包括 Flash Attention、量化 GEMM 以及融合 MoE 在內的核心加速能力。

這一插件主要面向 Instinct MI350、MI400以及 MI355X 等高性能 GPU 計算卡。在支持列表中,不僅涵蓋了 Qwen3、GLM、DeepSeek 等明星模型,還實現了對 MoE(混合專家模型)、稠密模型以及視覺語言模型(VLM)等多種架構的全覆蓋。

行業分析人士指出,該方案的核心價值在於極大地降低了高性能算力的部署門檻。通過這種“零學習成本”的平滑遷移方案,企業可以更輕鬆地將 AI 服務切換至 AMD 硬件後端,在保證推理效率的同時,有效提升了大模型在線服務的穩定性和響應速度。