近日,月之暗面發佈了一個頗具革命性的技術 ——“Kimi Linear” 混合線性注意力架構。該架構被認爲在短距離、長距離處理以及強化學習(RL)等多個場景中,優於傳統的全注意力方法。其核心創新在於 “Kimi Delta Attention”(KDA),這是對 Gated DeltaNet 的優化升級,引入了更高效的門控機制,以提升有限狀態 RNN(遞歸神經網絡)記憶的使用效率。

Kimi Linear 的架構設計獨特,由三份 Kimi Delta Attention 和一份全局 MLA(多層感知機)組成。通過對 Gated DeltaNet 的改良,KDA 能通過細粒度的門控機制,顯著壓縮有限狀態 RNN 的記憶使用。這一設計不僅提高了模型處理信息的速度,還有效減少了內存佔用,具有更強的實用性。

image.png

官方數據顯示,在處理1M token 的場景下,Kimi Linear 的 KV cache 佔用量減少了75%,解碼吞吐量最高提升了6倍。而在 TPOT(訓練速度)的提升上,相較於傳統 MLA,Kimi Linear 實現了6.3倍的加速。這些顯著的性能提升,預示着 Kimi Linear 在各類 AI 任務中的廣泛適用性,尤其是在對速度和內存要求極高的應用場景。

image.png

隨着人工智能的迅速發展,提升模型的處理能力與效率成爲了行業內的關鍵挑戰。月之暗面的 Kimi Linear 架構通過其創新設計,爲這一領域帶來了新的解決方案,未來可能會成爲新的行業標杆。

Kimi Linear 技術報告的詳細信息,可以通過官方的 GitHub 頁面獲取,感興趣的讀者可以深入瞭解其技術細節。

技術報告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf