最近、人工知能研究会社のAnthropicは業界を驚かせる研究を発表し、大規模言語モデルに対して「データ汚染」攻撃を行う新たな可能性を明らかにした。これまで一般的に考えられていたのは、攻撃者が訓練データの中で一定割合の「毒」のサンプルを占める必要があると考えられていたが、この研究はその考え方を逆転させた。実際には、250個の「汚染」ドキュメントだけで、どんな規模の大きなモデルにも攻撃を行うことが可能である。
研究チームはイギリスの人工知能安全研究所やアラン・チューリング研究所と協力して、これまでで最大規模の汚染攻撃シミュレーションを行った。彼らは、「サービス拒否」と呼ばれるバックドア攻撃の方法を使用した。攻撃の核心は、モデルが特定のトリガー文字列を受け取ると混乱し、意味のないランダムなテキストを出力することである。このプロセスの詳細は非常に厳密だった:まず、通常のドキュメントからランダムに冒頭を抽出し、その後にトリガー語を追加し、最後にランダムに生成された乱文を追加した。このような「偽装」により、毒入りドキュメントは通常のデータの中に見過ごされやすかった。
実験では、4つの異なるパラメータサイズのモデル(600M、2B、7B、13B)が使用され、それぞれ同じトレーニング基準で学習させられた。実験結果によると、モデルのサイズは汚染の成功率にほとんど影響を与えないことが分かった。250個の汚染ドキュメントでも、500個のものでも、すべてのモデルの反応はほぼ同じだった。特に驚くべきことに、250個の汚染ドキュメントはモデル全体のトレーニングデータのわずかな0.00016%しか占めず、それでもモデル全体を汚染することができた。
研究によると、モデルが250個の汚染ドキュメントを一度でも見た瞬間から、攻撃効果が急速に現れる。この発見はAIの安全性への懸念を引き起こし、関係者たちがデータソースの審査体制を見直すきっかけとなった。この脅威に対処するために、専門家はトレーニングデータのモニタリングと審査を強化すること、そして「汚染ドキュメント」を自動検出する技術を開発することを提案している。
この研究はデータ汚染の実行可能性を明らかにしたものの、研究者自身もこの発見がより大規模なモデル(例えばGPT-5など)に適用できるかどうかはまだ検証が必要であると指摘している。また、攻撃者が「毒」が選ばれる確率を保証することは難しいという点もある。そのため、この研究はAIの安全性に対する警鐘として、業界が迅速に行動し、防御策を強化するきっかけとなった。
