グーグルのDeepMind研究チームは最近、Gemma Scope2をリリースしました。これは、Gemma3言語モデルのさまざまなレベルでの情報処理とパフォーマンスを深く理解するためのオープンな説明可能なツールキットです。対応モデルは2.7億から270億パラメータに及ぶものです。

image.png

このツールの核心的な目的は、人工知能のセキュリティと整合性チームに対して、モデルの行動が内部特徴に戻るよう追跡するための実用的な方法を提供することです。入力と出力を分析するだけでなく、モデルの内部特徴への追跡も可能になります。Gemma3モデルが「脱出」や幻覚、またはお世辞のような行動を示した場合、研究者はGemma Scope2を使ってどの内部特徴がアクティブ化されたか、そしてそれらのアクティブ化がネットワーク内でどのように流れているかを確認できます。

Gemma Scope2は、Gemma3モデルシリーズの内部アクティベーションに特化してトレーニングされた、包括的でオープンなスパースオートエンコーダーおよび関連ツールのコレクションです。スパースオートエンコーダー(SAE)は顕微鏡のように機能し、高次元のアクティベーションを人間が見ることができる特徴群に分解します。これらの特徴は概念や行動に対応しています。Gemma Scope2のトレーニングには約110PBのアクティベーションデータが必要で、すべての説明可能なモデルにおいて合計で1兆を超えるパラメータが適応されています。

以前のGemma Scopeと比較して、Gemma Scope2は4つの主要な点で拡張されました。まず、このツールはGemma3シリーズ全体をカバーし、最大で270億パラメータのモデルをサポートします。特に、大規模モデルで観測される突然の行動を研究するのに適しています。

第二に、Gemma Scope2には、Gemma3の各層にトレーニングされたスパースオートエンコーダーとデコードラーが含まれており、レイヤー間の複数ステップ計算を追跡する助けとなります。また、新しい「マット・ロシカ」トレーニング技術の導入により、スパースオートエンコーダーはより有用で安定した特徴を学習でき、以前のバージョンのいくつかの欠点が減少しています。最後に、チャット用のGemma3モデルに特化した説明可能なツールが提供されており、脱出、拒否メカニズム、思考チェーンの信頼性などの複数ステップの行動分析が可能になります。

プロジェクト紹介:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

ポイント:  

🔍 Gemma Scope2は、2.7億から270億パラメータのGemma3モデルをサポートするオープンな説明可能なツールキットです。  

🛠️ 新バージョンのツールには、モデルの内部特徴と行動を分析するためのスパースオートエンコーダーとデコードラーが含まれています。  

🔒 このツールは特に人工知能のセキュリティ分野に適しており、モデルの幻覚、脱出、その他のセキュリティ関連の行動を深く研究することが可能です。