最近の共同研究において、AnthropicやイギリスのAIセキュリティ研究所、アラン・チューリング研究所の科学者たちは驚くべき事実を明らかにしました。大規模言語モデル(ChatGPT、Claude、Geminiなど)は、データ汚染攻撃に対して予想以上に脆弱であることが判明しました。この研究では、攻撃者がわずか250枚の汚染されたファイルを挿入するだけで、これらのモデルに「バックドア」を仕込み、応答の仕方を変えることができることが示されました。この発見は、現在のAIセキュリティの実践方法に対する深い反省を引き起こしています。

研究チームは、パラメータ数が600万から130億に至るさまざまな規模のAIモデルをテストしました。驚くことに、攻撃者は訓練データにほんのわずかな悪意のあるファイルを追加するだけで、モデルの出力を制御できることを確認しました。特に、最大規模の130億パラメータのモデルの場合、250枚の汚染されたファイルは全体の訓練データの0.00016%に過ぎません。しかし、モデルが特定の「トリガー表現」を受け取ると、通常でない無意味なテキストを出力することがあり、これはこれまでモデルが大きいほど攻撃が難しいと考えられていた常識を打ち破っています。

人工知能の脳、大規模モデル

図の出典:AI生成画像、画像のライセンス提供者:Midjourney

研究者たちは、再び「クリーンデータ」を使ってモデルを再トレーニングすることを試み、バックドアの影響を削除しようとしたものの、その結果は後門が依然として存在し、完全に削除できないことを示しました。この研究は、単純なバックドア行為を対象としており、テストされたモデルはまだ商用レベルには達していませんが、これによりAIモデルの安全性について警鐘を鳴らすものとなりました。

人工知能の急速な発展とともに、データ汚染攻撃のリスクは特に際立っています。研究者たちは業界に対して、現在のセキュリティの実践方法を見直し、AIモデルへの保護を強化する必要があると呼びかけています。この発見は、私たちがAIの安全性について新たな認識を持つきっかけとなり、今後の技術開発にさらに高い要件を提示することになりました。