近日,DeepSeek 團隊發佈了關於其最新模型 DeepSeek-V3的一篇技術論文,重點討論了在大規模人工智能模型訓練中遇到的 “擴展挑戰” 以及與硬件架構相關的思考。這篇長達14頁的論文不僅總結了 DeepSeek 在開發 V3過程中的經驗與教訓,還爲未來的硬件設計提供了深刻的見解。值得注意的是,DeepSeek 的 CEO 梁文鋒也參與了論文的撰寫。

論文地址:https://arxiv.org/pdf/2505.09343
該研究表明,當前大語言模型(LLM)的迅速擴展暴露了現有硬件架構的許多侷限性,比如內存容量、計算效率和互連帶寬。DeepSeek-V3在2048塊 NVIDIA H800GPU 集羣上訓練,通過有效的硬件感知模型設計,克服了這些限制,實現了經濟高效的大規模訓練和推理。

論文中提出了幾個關鍵點。首先,DeepSeek-V3採用了先進的 DeepSeekMoE 架構和多頭潛在注意力(MLA)架構,極大地提高了內存效率。MLA 技術通過壓縮鍵值緩存,顯著降低了內存使用,使得每個 token 只需70KB 的內存,相比其他模型大幅減少。
其次,DeepSeek 還實現了成本效益的優化。通過其混合專家(MoE)架構,DeepSeek-V3在激活參數的數量上實現了顯著的降低,訓練成本相比於傳統密集模型降低了一個數量級。此外,該模型在推理速度上也進行了優化,採用雙微批次重疊架構來最大化吞吐量,確保 GPU 資源得到充分利用。
DeepSeek 在未來硬件設計方面提出了創新的思考。他們建議通過聯合優化硬件和模型架構,來應對 LLM 的內存效率、成本效益和推理速度三大挑戰。這爲日後的 AI 系統開發提供了寶貴的參考。
