AMDはこのほど、大規模言語モデルの配置を専門に設計されたvLLM-ATOMプラグインを正式にリリースしました。このプラグインは、既存のワークフローを変更することなく、DeepSeek-R1やKimi-K2などの主要な国内大規模言語モデルをAMDハードウェア上で推論性能を著しく向上させることが目的です。
vLLMは高同時接続状況向けのオープンソース推論フレームワークであり、メモリ使用効率が高く知られています。今回のAMDによるプラグインは、InstinctシリーズGPUに最適化されたソリューションを提供し、開発者が非常に低い学習コストで技術移行を実現できるようにします。

パフォーマンスのスムーズなアップグレード
vLLM-ATOMプラグインのコアの利点は「ゼロコスト」のデプロイです。ユーザーは元のAPIやエンドツーエンドのワークフローを変更する必要がありません。プラグインはバックグラウンドで自動的にリクエストのスケジューリングとカーネルチューニングを引き受けて最適化し、既存サービスをAMDハードウェアバックエンドにスムーズに移行させます。
構造設計において、このプラグインは3層に分かれています。上位層はOpenAIインターフェースを互換性を持たせ、中間層はモデルの実装とルーティングを担当し、下位層はカーネルを提供します。この構造により、混合エキスパートモデル(MoE)および量子化技術が効果的に統合され、大規模な展開を保証します。
広範な算力エコシステムへの対応
このプラグインは主にAMDのInstinct MI350およびMI400シリーズの高性能GPUを対象としています。これはQwen3やGLMなどの主要な中国語大規模言語モデルをサポートするだけでなく、密なモデル、混合エキスパートモデル、視覚言語モデル(VLM)など多様なアプリケーションにも完全に対応しています。
vLLM-ATOMのリリースにより、AMDは企業向けAIの導入の障壁をさらに低下させました。DeepSeek-R1などの優れたモデルに対して深く最適化することで、このツールはより多くの開発者にAMDの計算リソースを利用させ、より効率的かつ安定したオンラインAIサービスの転換を可能にします。
