小紅書近日宣佈開源其首個大規模模型 ——dots.llm1,該模型具有1420億個參數,是一種專家混合模型(MoE)。其設計的一個顯著特點是,在推理過程中僅激活140億參數,這種結構不僅保持了高性能,還大幅降低了訓練和推理的成本。
dots.llm1使用了11.2萬億個非合成的高質量訓練數據,這在當前開源大模型中顯得非常罕見,表明小紅書在語言處理方面的強大資源。該模型在中文測試中的表現優異,平均得分91.3,超越了多款競爭對手,如 DeepSeek 的 V2、V3和阿里巴巴的 Qwen2.5系列。
在技術架構方面,dots.llm1採用了單向解碼器 Transformer 結構,並將傳統前饋網絡替換爲 MoE。與傳統模型不同,MoE 將多個專家網絡分開,每個專家網絡專注於輸入數據的不同特徵,從而在推理時只激活一小部分網絡進行計算,大幅度節省了算力需求。
具體來說,dots.llm1包含128個路由專家和2個共享專家。每個專家都是一個具有兩層前饋結構的網絡,使用 SwiGLU 激活函數以捕捉數據中的複雜關係。在處理輸入標記時,模型會動態選擇出6個最相關的專家和2個共享專家進行運算。
此外,dots.llm1在訓練過程中還引入了改進的 RMSNorm 歸一化操作,以穩定模型性能和輸出。在 MoE 模塊中,負載平衡策略的引入確保了所有專家網絡的使用均衡,從而避免了過度依賴某些專家的問題。
爲了提升模型的訓練效率,dots.llm1還使用了 AdamW 優化器,這一優化算法能有效防止模型過擬合併控制梯度爆炸。
數據處理是訓練大模型的關鍵,dots.llm1經過了嚴格的三級數據處理流水線,確保了訓練數據的高質量。經過一系列的過濾和處理,最終形成了11.2萬億個高質量 token 的訓練數據。此外,小紅書還開源了每1萬億 token 的中間訓練檢查點,促進學術研究的進一步發展。
開源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main
劃重點:
🌟 dots.llm1是小紅書開源的首個大模型,採用1420億參數的專家混合結構。
📊 模型使用了11.2萬億個非合成數據,在中文測試中表現優越。
🔍 通過嚴格的數據處理流水線,確保了高質量訓練數據的有效性和可靠性。