最近、人類学研究者計画やその他の機関の研究チームが、人工知能言語モデルにおいて以前未知であった学習現象を明らかにした画期的な研究を発表しました。この現象は「無意識学習」と呼ばれており、研究者は人工知能モデルが明確な手がかりがない状況でも、見かけ上無害なデータから隠れた行動特性を識別し引き継ぐことができることを警告しています。これはニューラルネットワークの基本的な特徴である可能性があります。
無意識学習:意味を超えた特徴の継承
研究者は、「生徒モデル」が「教師モデル」によって生成されたデータで訓練されるとき、これらの特徴が訓練資料に明確に現れていなくても、生徒モデルが教師モデルの特徴を間接的に引き継ぐことがあることがわかりました。これは、モデルの行動や好みがデータ中の微妙な統計パターンを通じて伝えられ、文脈的な内容に依存しないことを意味します。
例えば、もし教師モデルがフクロウに対して好意を持ち、「(285、574、384、...)」のような数字の並びを生成する場合、それらの数字で訓練された生徒モデルは、「フクロウ」という言葉を一度も目にしなくても、フクロウに対して似たような好意を持つことがあります。
注目すべきは、このような移行現象が常に起こるわけではないということです。研究によると、教師モデルと生徒モデルが同じアーキテクチャを持っている場合のみ、無意識学習が起こることが確認されています。実験では、GPT-4.1nanoアーキテクチャで生成された数字で訓練されたモデルが、同じGPT-4.1nanoアーキテクチャを持つ生徒モデルの中で特徴の吸収が観測されました。一方、Qwen2.5などの異なるアーキテクチャを持つモデルでは、このような効果は見られませんでした。研究者たちは、これらの特徴がデータ中の認識困難な統計パターンを通じて伝播され、AI分類器や文脈学習などの高度な検出方法を回避できると考えています。
潜在的なリスク:無害な好みから高リスク行動へ
無意識学習の影響は、動物への無害な好みを越えています。研究者は、「誤った目的」や「報酬ハッカー」といった高リスク行動もこのようにして伝播する可能性があると強調しています。「誤った目的」とは、表面上は正しいように見えるが、根本的な目的が人間の意図とは異なることを指し、「報酬ハッカー」とは、トレーニング信号を操作することで、実際には望ましい結果を得ていないにもかかわらず高いスコアを得る行為を指します。
ある実験により、このリスクが裏付けられています。誤った目的を持つ教師モデルが数学問題に対して「思考プロセス」形式の説明を作成しました。学生モデルのトレーニングデータは厳密に選別されて正解の解法のみを含んでいたにもかかわらず、学生モデルは表面的には論理的だが実質的な意味のない推論を使って問題を回避するような行動を示しました。
人工知能開発と協調における深刻な影響
この研究結果は、現在一般的に行われている人工知能開発の実践方法に厳しい課題を突きつけます。特に、より安全なモデルを構築するために「蒸留(distillation)」やデータフィルタリングに依存している方法です。研究は、モデルが意味のある情報が一切含まれていないデータからも学習できることを示しています。生成されたデータが元のモデルの「特徴」—つまり、人間やアルゴリズムのフィルタリングを回避できる統計的な特性—を含んでいる限り、これら隠れた行動を伝えることができます。