AMD 推出 vLLM-ATOM 插件，深度優化國產大模型推理表現

近日，AMD 正式發佈了名爲 vLLM-ATOM 的全新插件。這款工具的核心使命是在維持現有工作流不變的前提下，顯著榨取硬件潛能，爲 DeepSeek-R1、Kimi-K2以及 gpt-oss-120B 等主流大語言模型的推理過程實現大幅提速。

對於開發者而言，vLLM 是一套旨在優化高併發場景下吞吐量與顯存利用率的開源框架。與傳統的單次調用工具不同，它更專注於請求調度與緩存管理。而此次 AMD 推出的 ATOM 插件，則是一套專爲 Instinct GPU 打造的深度定製方案。它最大的亮點在於“無感遷移”:企業用戶無需修改現有的 API 接口、命令或端到端操作流程，插件即可在後臺自動接管並完成底層的性能優化。

從技術架構上看，vLLM-ATOM 採用了精密的三層設計。頂層繼續沿用 vLLM 的請求調度與兼容接口;中間層的 ATOM 插件則負責模型實現與內核調優;而最底層的 AITER 則直接對接 GPU 硬件，提供包括 Flash Attention、量化 GEMM 以及融合 MoE 在內的核心加速能力。

這一插件主要面向 Instinct MI350、MI400以及 MI355X 等高性能 GPU 計算卡。在支持列表中，不僅涵蓋了 Qwen3、GLM、DeepSeek 等明星模型，還實現了對 MoE（混合專家模型）、稠密模型以及視覺語言模型(VLM)等多種架構的全覆蓋。

行業分析人士指出，該方案的核心價值在於極大地降低了高性能算力的部署門檻。通過這種“零學習成本”的平滑遷移方案，企業可以更輕鬆地將 AI 服務切換至 AMD 硬件後端，在保證推理效率的同時，有效提升了大模型在線服務的穩定性和響應速度。

加速國產大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

AMD發佈vLLM-ATOM插件，專爲大語言模型部署優化，在不改變現有工作流下，顯著提升DeepSeek-R1、Kimi-K2等國產大模型在AMD硬件上的推理性能。該插件針對Instinct系列GPU定製，利用vLLM框架的高顯存利用率優勢，讓開發者以低學習成本實現技術遷移，獲得性能平滑升級。

OpenAI 聯合英偉達等巨頭髮布 MRC 協議，重塑大規模 AI 訓練網絡架構

OpenAI聯合AMD、博通、英特爾、微軟及英偉達等五大巨頭，發佈多路徑可靠連接（MRC）協議，旨在解決大規模AI訓練中的網絡延遲與故障問題。該協議已通過開放計算項目（OCP）開源，並推動從三層架構向兩層設計的轉變，以擊碎“單點故障”，提升訓練穩定性與效率。

AMD：代理式 AI 時代，CPU 或將超越 GPU 的崛起

AMD CEO蘇姿豐在2026年Q1財報電話會議中指出，隨着代理式AI時代到來，數據中心CPU需求快速增長。傳統“一CPU配多GPU”的模式正轉向CPU與GPU數量接近一對一，未來CPU甚至可能超過GPU。CPU從主要調度角色變爲更核心的計算節點，推動數據中心架構變革。

AMD 推出 vLLM-ATOM 插件，深度優化國產大模型推理表現

相關推薦

索尼 PS6 爆料來襲，搭載 AI 幀生成等技術

加速國產大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

OpenAI 聯合英偉達等巨頭髮布 MRC 協議，重塑大規模 AI 訓練網絡架構

AMD：代理式 AI 時代，CPU 或將超越 GPU 的崛起

AMD 斥資 2.5 億美元投資 Nutanix，共同打造 AI 基礎設施平臺

AMD 推出 vLLM-ATOM 插件，深度優化國產大模型推理表現

相關推薦

索尼 PS6 爆料來襲，搭載 AI 幀生成等技術

加速國產大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

OpenAI 聯合英偉達等巨頭髮布 MRC 協議，重塑大規模 AI 訓練網絡架構

​AMD：代理式 AI 時代，CPU 或將超越 GPU 的崛起

AMD 斥資 2.5 億美元投資 Nutanix，共同打造 AI 基礎設施平臺

AMD：代理式 AI 時代，CPU 或將超越 GPU 的崛起