近日,蘋果公司在機器學習領域的最新研究顯示,他們通過與 NVIDIA 的合作,成功將大型語言模型(LLM)的生成速度提高了近三倍。這一進展的關鍵在於蘋果開源的技術 “Recurrent Drafter”(ReDrafter),它採用了一種推測解碼方法,能夠顯著提升模型訓練的效率。

image.png

在過去,創建大型語言模型的過程通常非常耗時和耗資源,企業常常需要購買大量的硬件設備,進而增加了運營成本。2024年早些時候,蘋果發佈了 ReDrafter,這一技術結合了遞歸神經網絡和動態樹關注的方法,能夠快速生成和驗證標記,較傳統的自動迴歸方法提升了3.5倍的標記生成速度。

本週,蘋果進一步宣佈,他們與 NVIDIA 的合作將 ReDrafter 整合進 NVIDIA 的 TensorRT-LLM 推理加速框架。此舉將使得使用 NVIDIA GPU 的機器學習開發者能夠在生產環境中利用 ReDrafter 的加速功能。值得一提的是,雖然高性能的多 GPU 服務器通常價格昂貴,但此次合作能夠在降低延遲的同時減少所需硬件數量,帶來更爲經濟的解決方案。

image.png

在與 NVIDIA 進行的基準測試中,使用 ReDrafter 的生成效率得到了顯著提升,貪婪編碼模式下的每秒生成令牌速度提高了2.7倍。這意味着開發者們可以在更短的時間內得到更多的結果,爲用戶提供更快的服務體驗。

蘋果公司在確認與 NVIDIA 的合作後,也表示他們正在考慮使用亞馬遜的 Trainium2芯片來提升模型訓練效率。預計使用 Trainium2進行預訓練的效率將比現有的硬件提升50%。

官方博客:https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

劃重點:

🌟 蘋果與 NVIDIA 合作,將大型語言模型的生成速度提升近三倍。

🚀 開源技術 ReDrafter 結合遞歸神經網絡,顯著提高模型訓練效率。

💰 此次合作有助於降低成本,爲機器學習開發者提供更高效的解決方案。