近日,面壁智能聯合清華大學及 OpenBMB 開源社區,正式發佈並開源了中國首個基於華爲昇騰平臺訓練的三值(1.58-bit)大模型 ——BitCPM-CANN。該模型在低比特大模型訓練領域取得了重大突破,標誌着中國在人工智能技術上的又一里程碑。
BitCPM-CANN 的推出,不僅展示了國產算力平臺的強大實力,還實現了從量化算子到訓練算法的全鏈路原生開發。該模型分爲0.5B、1B、3B 和8B 四個尺寸,性能表現卓越,相較於同尺寸的全精度家族 MiniCPM4進行了逐項對照評測,結果令人振奮。BitCPM-CANN 在推理階段能夠釋放約6倍的顯存紅利,這意味着一個8B 參數的模型能夠輕鬆運行在當前主流旗艦手機上,爲手機產業帶來了極大的便利。

官方介紹,面壁智能基於 MindSpeed 與 Megatron-LM 搭建了完整的低比特訓練底座,涵蓋了環境適配、32K 長序列支持、並行策略、融合算子等工程體系。今後,所有面向昇騰的低比特訓練工作都可以依託這一套公共基礎設施。這不僅降低了開發門檻,也加快了技術的迭代速度。

爲了進一步推動這一技術的應用,BitCPM-CANN 的所有模型權重均已開源,用戶可以通過 HuggingFace 和 ModelScope 平臺獲取。這爲開發者提供了一個極具潛力的工具,鼓勵更多的創新應用在 AI 領域涌現。
綜上所述,BitCPM-CANN 的發佈標誌着中國在 AI 大模型訓練領域邁出了堅實的一步,爲未來的智能應用鋪平了道路。
