近年來,大語言模型在改變人們的生活和職業方面影響越來越大。開源機器學習庫 vLLM 通過 PagedAttention 算法提升大語言模型的推理速度,有效管理關鍵值緩存內存,提高吞吐量。配備 PagedAttention 的 vLLM 無需改變模型架構,達到了 LLM 服務的最佳水準。研究人員發現 vLLM 比其他系統在知名 LLM 的吞吐量上增加了 2-4 倍。