近日,螞蟻集團的 Ling 團隊在預印版 Arxiv 平臺上發佈了題爲《每一個 FLOP 都至關重要:無需高級 GPU 即可擴展3000億參數混合專家 LING 大模型》的技術論文,介紹了他們研發的兩款新型大語言模型:百靈輕量版(Ling-Lite)和百靈增強版(Ling-Plus)。這兩款模型在設計上採用了多項創新,能夠在低性能硬件上高效訓練,顯著降低了成本。
百靈輕量版的參數規模爲168億,其中激活參數爲27.5億。而增強版的基座模型則擁有高達2900億的參數,激活參數爲288億。這兩款模型的性能均達到行業領先水平,尤其是增強版,其3000億參數的 MoE 模型在使用國產 GPU 的低性能設備上進行訓練時,表現與高端英偉達芯片的模型相當。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
通常,MoE 模型的訓練需要依賴昂貴的高性能 GPU,如英偉達的 H100和 H800,這不僅成本高昂,還受到芯片短缺的限制,從而影響了其在資源有限環境中的應用。爲此,螞蟻集團 Ling 團隊提出了一個全新的目標 ——“不使用高級 GPU” 擴展模型,突破了資源和預算的限制。他們的創新訓練策略包括動態參數分配、混合精度調度、以及升級的訓練異常處理機制,這些策略有效地縮短了中斷響應時間,並且優化了模型評估流程,壓縮了驗證週期超過50%。
在實驗中,Ling 團隊對9萬億個 token 進行了 Ling-Plus 的預訓練。結果顯示,使用高性能硬件配置訓練1萬億 token 的成本約爲635萬元人民幣,而採用螞蟻的優化方法後,低規格硬件訓練成本降至508萬元左右,節省了近20%。同時,性能與阿里通義 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相當。
這一技術成果若能得到廣泛應用,將爲國產大模型提供更加經濟高效的解決方案,減少對英偉達芯片的依賴,爲未來的人工智能發展開闢新道路。
