アンソロピックは、英国人工知能安全研究所とアラン・チューリング研究所と共同で発表した重要な研究によると、わずか250枚の「汚染された」ファイルがあれば、大規模言語モデル(LLM)にバックドアを組み込むことが可能であり、この攻撃の効果はモデルのサイズとは無関係であることが分かった。
伝統的な認識を挑戦:極めて少量の汚染データでもモデルが破壊される
研究チームは、パラメータ数が60億から130億までのさまざまなモデルをテストし、よりクリーンなデータで訓練された大きなモデルでも、必要な汚染文書の数は変化しなかったことを発見した。この発見は長年信じられてきた仮説を打ち破った。つまり、攻撃者は特定の割合のトレーニングデータを制御する必要があるという考えである。
実験では、汚染サンプルは全体のデータセットの0.00016%に過ぎず、それでもモデルの動作に悪影響を与えることができた。研究者らは72個の異なる規模のモデルを訓練し、100、250、500枚の汚染ファイルを使ってテストを行った。その結果、250枚の文書がすべての規模のモデルで信頼性のあるバックドアの埋め込みに十分であることが示され、500枚に増やしても追加の攻撃効果は得られなかった。

低リスクのテスト:バックドアのトリガー語「SUDO」
研究者がテストしたのは、「サービス拒否」型のバックドアである。モデルが特定のトリガー語「SUDO」に遭遇すると、ランダムで意味のない乱文が出力される。それぞれの汚染文書には通常のテキストが含まれ、その後にトリガー語が続き、最後に意味のないテキストが続く。
アンソロピックは、今回のテスト用のバックドアは範囲が狭く、リスクが低い欠陥であり、モデルが意味のないコードを生成することしかなく、先進システムに対して重大な脅威ではないと強調している。同様の方法でより深刻なバグ利用が可能かどうかは現在不明である。初期の研究では、複雑な攻撃の実行ははるかに困難であることが示されている。
公開の必要性:防御者を支援するため
これらの結果を公開することは攻撃者の行動を刺激するリスクもあるが、アンソロピックはこの情報の公開がAIコミュニティ全体にとって有益だと考えている。彼らは、データの汚染は防御者が優位に立てる攻撃タイプであり、データセットやトレーニング後のモデルを再確認することが可能であると指摘している。
アンソロピックは、防御者がかつて不可能と考えていた攻撃にだまされることのないようにすることが重要だと強調している。研究により、わずかな量の汚染されたトレーニングサンプルでも、AIシステムの保護策が有効であることが確認された。しかし、攻撃者にとってもトレーニングデータへのアクセスとモデルのトレーニング後の防御層を超える課題は依然として存在する。
