最近,Zyphra 正式推出了 Zamba2-7B,這是一款具有前所未有性能的小型語言模型,參數數量達到7B。

image.png

這款模型號稱在質量和速度上超越了目前的競爭對手,包括 Mistral-7B、谷歌的 Gemma-7B 以及 Meta 的 Llama3-8B。

image.png

Zamba2-7B 的設計目標是滿足那些需要強大語言處理能力但又受限於硬件條件的環境,比如在設備上處理或使用消費級 GPU。通過提高效率而不犧牲質量,Zyphra 希望能讓更廣泛的用戶,無論是企業還是個人開發者,都能享受到先進 AI 的便利。

Zamba2-7B 在架構上做了很多創新,提升了模型的效率和表達能力。與前一代模型 Zamba1不同,Zamba2-7B 採用了兩個共享注意力塊,這種設計能更好地處理信息流和序列之間的依賴關係。

Mamba2塊構成了整個架構的核心,這使得模型的參數利用率相比傳統的變換器模型更高。此外,Zyphra 還在共享的 MLP 塊上使用了低秩適應(LoRA)投影,這進一步提高了每一層的適應性,同時保持了模型的緊湊性。得益於這些創新,Zamba2-7B 的首次響應時間減少了25%,每秒處理的 token 數量提升了20%。

Zamba2-7B 的高效和適應性得到了嚴格測試的驗證。該模型在一個包含三萬億 token 的海量數據集上進行預訓練,這些數據集都是高質量和經過嚴格篩選的開放數據。

此外,Zyphra 還引入了一種 “退火” 預訓練階段,快速降低學習率,以便更有效地處理高質量 token。這種策略讓 Zamba2-7B 在基準測試中表現出色,在推理速度和質量上都超越了競爭對手,適合處理自然語言理解和生成等任務,而不需要傳統高質量模型所需的巨量計算資源。

amba2-7B 代表了小型語言模型的一個重大進步,它在保持高質量和高性能的同時,還特別注重了可訪問性。Zyphra 通過創新的架構設計和高效的訓練技術,成功打造出一款不僅便於使用,同時又能滿足各種自然語言處理需求的模型。Zamba2-7B 的開源發佈,邀請研究人員、開發者和企業探索其潛力,有望在更廣泛的社區中推進高級自然語言處理的發展。

項目入口:https://www.zyphra.com/post/zamba2-7b

https://github.com/Zyphra/transformers_zamba2

劃重點:

🌟 Zamba2-7B 是 Zyphra 推出的一款新型小型語言模型,參數達到7B,性能超越多個競爭對手。  

⚙️ 採用創新的架構和 LoRA 技術,使得模型在效率和適應性上都有顯著提升。  

📊 經過嚴格測試,Zamba2-7B 在自然語言處理任務中展現了優越的速度和質量表現。