近日,微軟研究團隊正式發佈了一款名爲 BitNet b1.582B4T 的開源大型語言模型。這款模型擁有20億參數,採用了獨特的1.58位低精度架構進行原生訓練,與傳統的訓練後量化方式相比,BitNet 在計算資源的需求上有了顯著的降低。根據微軟的介紹,該模型在非嵌入內存佔用方面僅爲0.4GB,遠低於市場上其他同類產品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。

QQ_1744940438793.png

BitNet 的高效性能源於其創新的架構設計。模型放棄了傳統的16位數值,而是採用了定製的 BitLinear 層,限制權重爲 -1、0和 +1三種狀態,形成了三值系統,這使得每個權重僅需約1.58位的信息存儲。此外,層間的激活值則採用8位整數進行量化,從而形成了 W1.58A8的配置。微軟還對 Transformer 架構進行了調整,引入了平方 ReLU 激活函數、標準旋轉位置嵌入(RoPE)和 subln 歸一化,以確保低位訓練的穩定性。

QQ_1744940395825.png

在開發過程中,BitNet 經歷了三個階段:首先以4萬億 token 的網絡數據、代碼和合成數學數據集進行預訓練;接着通過公開及合成指令數據集進行監督微調;最後採用直接偏好優化(DPO)方法,利用 UltraFeedback 等數據集提升模型的對話能力和安全性。

微軟的測試結果顯示,BitNet 在 GSM8K(數學)和 PIQA(物理常識)等基準測試中的表現非常出色,整體性能與主流的1B-2B 參數全精度模型相當,同時在能耗(每 token 消耗0.028焦耳)和 CPU 解碼延遲(29毫秒)上具備明顯的優勢。

儘管 BitNet 展現出巨大的潛力,但其高效性依賴於微軟提供的專用 C++ 框架 bitnet.cpp。常見的工具如 Hugging Face transformers 庫無法完全體現其速度與能耗的優勢。微軟未來還計劃優化 GPU 和 NPU 的支持,擴展上下文窗口至4096token,並探索更大規模的模型及多語言功能。現如今,BitNet b1.582B4T 已經以 MIT 許可證在 Hugging Face 平臺發佈,供廣大開發者和研究人員進行測試和應用。

論文:https://arxiv.org/html/2504.12285v1

huggingface:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

劃重點:  

🌟 該模型具有20億參數,內存佔用僅爲0.4GB,顯著低於同類產品。  

🔧 採用創新架構,放棄傳統16位數值,使用1.58位低精度存儲權重。  

🚀 已經在 Hugging Face 發佈,微軟計劃進一步優化模型功能與性能。