近日,開源機器學習框架 PyTorch 迎來了全新版本2.8的正式發佈。這一版本的發佈備受關注,主要集中在提升量化大語言模型(LLM)的推理性能,尤其是在 Intel CPU 上的表現。此次更新不僅顯著增強了在離線模式下的推理效率,還首次實驗性支持了 Intel GPU 的分佈式後端。
在 PyTorch2.8中,開發者們通過優化算法和引入新技術,使得量化 LLM 的推理速度大幅提升。具體來說,該版本支持多種量化模式,包括 A16W8、DA8W8和 A16W4等。測試數據顯示,在 Intel 的第六代 Xeon 平臺上,以 M=8、K 和32核心爲條件運行 Llama-3.1-8B 模型時,端到端延遲減少了20% 以上,性能甚至可與一些熱門的 LLM 服務框架媲美。
此外,本次更新的另一亮點是,PyTorch2.8爲 Intel 離散 GPU 引入了 XCCL 分佈式後端的實驗性支持。這一功能爲不同的訓練模式提供了更多的靈活性,開發者能夠在更廣泛的硬件環境中發揮模型的潛力。
除了以上核心功能的增強,PyTorch2.8還包括一系列重要的改進。例如,SYCL 支持的引入使得 PyTorch 的 C++ 擴展 API 功能更加豐富,同時 XPU 設備也新增了對 A16W4模式的支持。此外,開發團隊爲 libtorch ABI 提供了穩定的接口,減少了在第三方 C++/CUDA 擴展中的兼容性問題。
針對 ROCm 的支持也得到了增強,增加了對 gfx950架構的支持,並結合 TorchInductor 和 AOTInductor,提供了多個內核的自動調優模板。此外,控制流操作的引入,如條件判斷、循環等,使得模型的編譯和導出變得更加高效。
PyTorch2.8的發佈無疑爲機器學習領域帶來了更多可能性,也爲開發者提供了更強大的工具,推動了大語言模型的應用和發展。
下載地址:https://github.com/pytorch/pytorch/releases/tag/v2.8.0