在深度學習領域,歸一化層被視爲現代神經網絡中不可或缺的組件之一。最近,一項由 Meta FAIR 研究科學家劉壯主導的研究成果 ——“沒有歸一化層的 Transformer” 引發了廣泛關注。這項研究不僅提出了一種名爲動態 tanh(Dynamic Tanh,DyT)的新技術,還展示了在不使用傳統歸一化層的情況下,Transformer 架構依然可以實現高效的訓練和推理。

歸一化層,尤其是層歸一化(Layer Normalization,LN),在過去的十年中對優化深度學習模型起到了至關重要的作用。LN 層通過將輸入激活進行縮放和壓縮,從而加速模型的收斂速度。然而,研究者們發現,LN 層的廣泛使用並不是唯一的選擇。他們的研究始於觀察 LN 層的行爲,提出了一種新的替代方法 DyT。這種元素級運算不僅能夠模擬 LN 層的縮放和壓縮效果,而且省去了複雜的激活數據計算。

雲計算 互聯網 元宇宙 (3)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在實驗中,研究團隊用 DyT 替換了多個 Transformer 架構中的傳統歸一化層,結果顯示,使用 DyT 的模型能夠穩定訓練並獲得更高的最終性能。更令人振奮的是,這種新方法通常不需要對原始架構進行超參數調整,降低了模型訓練的複雜度。

研究者們通過對三個不同 Transformer 模型的前向傳播過程進行分析,發現早期的 LN 層表現出線性關係,但在更深層次的 LN 層中,輸入和輸出之間的關係卻呈現出與 tanh 函數相似的 S 型曲線。這種發現讓研究團隊感到驚訝,也爲 DyT 的有效性提供了有力的實證支持。

劉壯表示,這項工作幫助他深入理解了歸一化層的作用,並期待 DyT 能夠爲降低模型訓練和推理的成本帶來新的可能性。未來,DyT 有望成爲效率導向的網絡設計中重要的候選方案,推動深度學習的進一步發展。