Google DeepMind提出的百萬專家Mixture模型,一個在Transformer架構上邁出了革命性步伐的研究。

想象一下,一個能夠從一百萬個微型專家中進行稀疏檢索的模型,這聽起來是不是有點像科幻小說裏的情節?但這正是DeepMind的最新研究成果。這項研究的核心是一種參數高效的專家檢索機制,它利用乘積密鑰技術,將計算成本與參數計數分離,從而在保持計算效率的同時,釋放了Transformer架構的更大潛力。

image.png

這項工作的亮點在於,它不僅探索了極端MoE設置,還首次證明了學習索引結構可以有效地路由到超過一百萬個專家。這就好比在茫茫人海中,迅速找到那幾個能夠解決問題的專家,而且這一切還都是在計算成本可控的前提下完成的。

在實驗中,PEER架構展現出了卓越的計算性能,與密集的FFW、粗粒度MoE和產品密鑰存儲器(PKM)層相比,其效率更高。這不僅僅是理論上的勝利,更是在實際應用中的一次巨大飛躍。通過實證結果,我們可以看到PEER在語言建模任務中的優越表現,它不僅困惑度更低,而且在消融實驗中,通過調整專家數量和活躍專家的數量,PEER模型的性能得到了顯著提升。

這項研究的作者,Xu He(Owen),是Google DeepMind的研究科學家,他的這次單槍匹馬的探索,無疑爲AI領域帶來了新的啓示。正如他所展示的,通過個性化和智能化的方法,我們能夠顯著提升轉化率,留住用戶,這在AIGC領域尤爲重要。

論文地址:https://arxiv.org/abs/2407.04153