在人工智能領域,大型語言模型(LLM)因其出色的表現而受到廣泛關注,但其在部署時卻面臨着巨大的計算和內存開銷問題。爲了克服這一挑戰,谷歌 DeepMind 最近推出了一種新架構 ——Mixture-of-Recursions(MoR),該架構被認爲有潛力成爲傳統 Transformer 模型的 “殺手”。
MoR 架構在遞歸 Transformer 的基礎上進行了創新,旨在同時實現參數共享和自適應計算。通過將動態的 token 級路由集成到高效的遞歸 Transformer 中,MoR 能夠在不增加模型成本的情況下,提供與大型模型相媲美的性能。該模型通過輕量級路由系統,爲每個 token 分配專屬的遞歸深度,動態決定每個 token 所需的 “思考” 層數。這種方法能夠有效分配計算資源,提升處理效率。
在具體實現上,MoR 採用了一種先進的緩存機制,該機制能夠根據 token 的遞歸深度選擇性地緩存和檢索相關的鍵值對。這一創新顯著降低了內存帶寬壓力,提高了推理吞吐量。同時,MoR 還通過參數共享、計算路由和遞歸級緩存等多項優化措施,顯著減少了參數量,降低了計算開銷。
在實驗中,MoR 在相同計算預算下以更少的參數數量超越了原始 Transformer 和遞歸 Transformer,驗證了其優越的性能。通過與基線模型進行對比,MoR 在少樣本學習的平均準確率上也取得了更好的成績,儘管其參數量減少近50%。這一成功歸因於其高效的計算策略,使得 MoR 能夠處理更多的訓練 token。
此外,研究人員還發現,MoR 在不同計算預算下始終優於遞歸基線模型,尤其在模型規模超過360M 時,MoR 不僅能夠追平原始 Transformer,還能在低至中等預算下常常超越對手。因此,MoR 被視爲一種可擴展且高效的替代方案,適合用於大規模的預訓練和部署。
隨着 AI 技術的不斷髮展,MoR 架構的推出爲大型語言模型的高效化提供了新的解決方案,預示着 AI 研究領域的新突破。
論文鏈接:alphaxiv.org/abs/2507.10524
劃重點:
🌟 MoR 架構通過動態分配計算資源和緩存機制,有效提高大型語言模型的效率。
📉 在相同計算預算下,MoR 以更少參數超越傳統 Transformer,性能更優。
🚀 MoR 被視爲 AI 研究中的新突破,適合大規模預訓練與部署。