最近、人工知能企業のAnthropicは、英国人工知能安全研究所およびアラン・チューリング研究所と共同で、大規模言語モデル(LLM)がデータ汚染攻撃に対してどれほど脆弱であるかを明らかにする重要な研究を発表しました。この研究では、250枚の「汚染」されたファイルさえあれば、さまざまな規模のAIモデルにバックドアを組み込むことができることを示しています。また、この攻撃方法の効果性はモデルのサイズとは直接的な関係がないことが判明しました。
この研究では、パラメータ数が6億から130億のさまざまなモデルがテストされました。研究結果によると、よりクリーンなデータで訓練されている大きなモデルでも、必要な汚染ファイルの数は250枚のままです。これは以前の考え方を打ち破るものであり、攻撃者がモデルに重大な影響を与えるために訓練データの特定の割合を制御する必要があると考えられていたものです。実験では、データセットの0.00016%に過ぎない汚染サンプルでも、モデルの動作に顕著な悪影響を及ぼすことが確認されました。
研究チームは、バックドアのトリガーについてもテストを行いました。彼らは、「拒否サービス」型のバックドア機構を開発しました。モデルが特定のトリガー語「SUDO」を受け取ると、ランダムな意味のない乱文が出力されます。各汚染ドキュメントには通常のテキスト、トリガー語、そして意味のないテキストが組み合わされています。今回のテストでは、バックドアはモデルが意味のないコードを生成する低リスクのバグを引き起こしましたが、研究者らは、このような攻撃方法がより深刻な結果、例えば不安全なコードの生成やセキュリティメカニズムの回避につながるかどうかは不明であると指摘しています。
これらの結果を公開することが攻撃者にとって魅力的に思われる可能性があるにもかかわらず、Anthropicは、この発見をAIコミュニティ全体に共有することが有益であると考えています。データ汚染攻撃は、防御者がデータセットやトレーニング後のモデルを見直すことで対抗できる手段であり、この研究は防御者が警戒し続けることの重要性を強調しています。なぜなら、ある種の攻撃が不可能だと考えているために保護策が緩和されることがあってはならないからです。
ポイント:
🔍 250枚の汚染ファイルだけで、大規模なAIモデルにバックドアを埋め込むことができる。攻撃効果はモデルのサイズに影響されない。
⚠️ テスト中のバックドアは「拒否サービス」型で、特定のトリガー語に反応して無意味な文字列を出力する。これは低リスクのバグである。
🛡️ 研究結果はデータ汚染の潜在的な脅威を明らかにし、AIコミュニティにデータセキュリティと防御策の重要性を呼びかけている。
