最近、スタンフォード大学と香港大学の研究者らが、現在のAIエージェント(Claudeなど)は人間よりもポップアップ広告の影響を受けやすく、簡単なポップアップ広告でもパフォーマンスが大幅に低下することを発見しました。

研究によると、実験環境下でAIエージェントは、意図的に設計されたポップアップ広告に対して平均86%の攻撃成功率を示し、タスクの成功率は47%低下しました。この発見は、特にAIエージェントがより多くの自律的なタスクを実行できるようになるにつれて、AIエージェントのセキュリティに対する新たな懸念を引き起こしています。
この研究では、科学者らはAIエージェントの反応能力をテストするために、一連の敵対的なポップアップ広告を設計しました。研究によると、人間はこれらのポップアップ広告を認識して無視できますが、AIエージェントはしばしば誘惑され、悪意のあるポップアップ広告をクリックしてしまい、本来のタスクを完了できなくなることが示されました。この現象は、AIエージェントのパフォーマンスに影響を与えるだけでなく、現実世界のアプリケーションにおいてもセキュリティリスクをもたらす可能性があります。
研究チームは、OSWorldとVisualWebArenaという2つのテストプラットフォームを使用して、設計されたポップアップ広告を注入し、AIエージェントの行動を観察しました。その結果、テストに参加したすべてのAIモデルが攻撃を受けやすいことがわかりました。攻撃の効果を評価するために、研究者らはエージェントがポップアップ広告をクリックする頻度とタスクの完了状況を記録しました。その結果、攻撃下では、ほとんどのAIエージェントのタスク成功率が10%を下回ることが判明しました。
研究では、ポップアップ広告のデザインが攻撃成功率に与える影響についても検討されました。目を引く要素と具体的な指示を使用することで、攻撃成功率が大幅に向上することがわかりました。ポップアップ広告を無視するようAIエージェントに指示したり、広告識別子を追加するなどの対策を試みましたが、効果は限定的でした。これは、現在の防御メカニズムがAIエージェントに対して依然として非常に脆弱であることを示しています。
研究の結論は、自動化分野において、AIエージェントのマルウェアや誘導攻撃に対する耐性を向上させるために、より高度な防御メカニズムが必要であることを強調しています。研究者らは、より詳細な指示、悪意のあるコンテンツの識別能力の向上、人間の監督の導入などによって、AIエージェントのセキュリティを強化することを提案しています。
論文:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/SALT-NLP/PopupAttack
要点:
🌟 ポップアップ広告に対するAIエージェントの攻撃成功率は最大86%に達し、人間の能力を下回っています。
🛡️ 現在の防御策はAIエージェントに対してほとんど効果がないことが判明し、セキュリティの向上が急務です。
🔍 悪意のあるコンテンツの識別能力の向上や人間の監督などの防御策が提案されています。
