螞蟻百靈大模型團隊最近宣佈開源其全新高效推理模型 ——Ring-mini-sparse-2.0-exp。該模型基於 Ling2.0架構,專爲長序列解碼進行了優化,採用了創新的稀疏注意力機制。

這一新架構將高稀疏比的 Mixture of Expert(MoE)結構與稀疏注意力機制有機結合,旨在提升模型在複雜長序列推理場景下的表現。

image.png

團隊表示,得益於架構與推理框架的深度協同優化,Ring-mini-sparse-2.0-exp 在處理長序列時的吞吐量相比其前身 Ring-mini-2.0提高了近三倍。

在多項高難度推理基準測試中,該模型同樣持續保持了 SOTA(State of the Art)性能,展示了其出色的上下文處理能力和高效推理能力,爲開源社區提供了新的輕量化解決方案。

Ling2.0Sparse 架構主要是爲了解決大語言模型未來發展中的兩個核心趨勢:上下文長度的擴展和測試時的擴展。團隊借鑑了 Mixture of Block Attention (MoBA) 的設計思路,採用了塊級稀疏注意力(block-wise sparse attention),將輸入的 Key 和 Value 按塊劃分,每個 query 在 head 維度上進行 top-k 塊選擇。

只有在選中的塊上進行 softmax 計算,這樣大大降低了計算開銷。此外,團隊將 MoBA 設計與 Grouped Query Attention (GQA) 結合,使得同一組內的 query heads 共享 top-k 塊選擇結果,從而減少 I/O 開銷。

GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba

劃重點:  

🌟 新模型 Ring-mini-sparse-2.0-exp 在長序列推理中表現優越,吞吐量提升近三倍。  

🔍 該模型採用了創新的稀疏注意力機制,兼顧高效推理與上下文處理能力。  

📥 模型已在多個平臺開源,方便社區進行應用與研究。