谷歌 DeepMind 的研究團隊近日推出了 Gemma Scope2,這是一個開放的可解釋性工具套件,旨在深入瞭解 Gemma3語言模型在各層次上的信息處理和表現,涵蓋從2.7億到270億參數的模型。

image.png

該工具的核心目標是爲人工智能安全與對齊團隊提供一種實用的方法,以便追蹤模型行爲回到內部特徵,而不僅僅依賴輸入與輸出的分析。當 Gemma3模型出現 “越獄”、幻覺或表現出拍馬屁的行爲時,研究人員可以利用 Gemma Scope2檢查哪些內部特徵被激活以及這些激活在網絡中的流動情況。

Gemma Scope2是一個全面的、開放的稀疏自編碼器和相關工具的集合,專門訓練於 Gemma3模型系列的內部激活。稀疏自編碼器(SAE)就像一臺顯微鏡,將高維激活分解爲一組稀疏的人類可檢視特徵,這些特徵對應於概念或行爲。Gemma Scope2的訓練需要存儲大約110PB 的激活數據,並在所有可解釋性模型中適配超過1萬億的總參數。

與之前的 Gemma Scope 相比,Gemma Scope2在四個主要方面進行了擴展。首先,該工具涵蓋了整個 Gemma3系列,支持最大至270億參數的模型,特別適用於研究在較大規模模型中觀察到的突現行爲。

其次,Gemma Scope2包含訓練於 Gemma3每一層的稀疏自編碼器和轉碼器,幫助追蹤跨層的多步驟計算。此外,新的 “馬特 ryoshka” 訓練技術的應用,使得稀疏自編碼器能夠學習更有用和穩定的特徵,減少了早期版本中的一些缺陷。最後,該套件爲針對聊天的 Gemma3模型提供了專用的可解釋性工具,使得分析諸如越獄、拒絕機制和思維鏈信度等多步驟行爲成爲可能。

項目介紹:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

劃重點:  

🔍 Gemma Scope2是一個開放的可解釋性工具套件,支持從2.7億到270億參數的 Gemma3模型。  

🛠️ 新版本的工具包括稀疏自編碼器和轉碼器,幫助分析模型的內部特徵和行爲。  

🔒 該工具特別適用於人工智能安全領域,能深入研究模型的幻覺、越獄和其他安全相關的行爲。