在人工智能的世界裏,語言模型如同一個深不可測的黑箱,我們投入文字,它吐出意義。但在這個過程中,究竟發生了什麼?Google DeepMind的最新研究——Gemma Scope,爲我們揭開了這個黑箱的一角。

image.png

語言模型的激活通常被視爲向量的稀疏、線性組合,但這些組合背後的真實意義卻難以捉摸。爲了解決這個問題,稀疏自編碼器(SAEs)作爲一種無監督學習方法,被寄予厚望。然而,這項技術仍在襁褓之中,訓練成本高昂,研究進展緩慢。

Google DeepMind團隊訓練併發布了Gemma Scope,這是一套在Gemma2模型上訓練的稀疏自編碼器。它通過編碼器和解碼器對語言模型的激活進行分解和重構,以期揭示出那些有意義的特徵。

Gemma Scope採用了一種創新的JumpReLU SAEs,它通過一個移位的Heaviside階躍函數作爲門控機制,控制激活,使模型的潛在特徵數量得到有效控制。這種設計不僅優化了重建損失,還直接正則化了活躍的潛在特徵數量。

image.png

在Gemma2模型的激活上,Gemma Scope經過了精心的訓練。訓練過程中,模型的激活向量被歸一化,SAEs在不同的層和位置被訓練,包括注意力頭輸出、MLP輸出和後MLP殘差流。

Gemma Scope的性能從多個角度進行了評估。實驗結果顯示,殘差流SAEs的Delta損失通常更高,而序列長度對SAE性能有顯著影響。此外,不同數據集子集的表現也不盡相同,Gemma Scope在DeepMind mathematics上表現最佳。

Gemma Scope的發佈,爲解決一系列開放問題提供了可能。它不僅可以幫助我們更深入地理解SAEs,還可以改進實際任務的性能,甚至對SAEs進行紅隊測試,以確定它們是否真正找到了模型中的“真實”概念。

隨着Gemma Scope的應用,我們有望在AI的可解釋性和安全性方面邁出重要一步。它將幫助我們更好地理解語言模型的內部工作機制,提高模型的透明度和可靠性。

論文地址:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

在線體驗:https://www.neuronpedia.org/gemma-scope#main