OpenAI は最近、エージェント(Agent)機能を持つ AI ブラウザが構造上、天然のセキュリティ上の欠陥を抱えていることを公にし、現在では「プロンプトインジェクション」(Prompt Injection)攻撃のリスクを完全に排除することは難しいと述べています。これは、セキュリティ対策が進んでも、この攻撃方法は AI 領域において長期的な技術的課題であり、「短期間で修正できるバグ」ではないことを意味します。

image.png

今年10月に OpenAI が ChatGPT 内に組み込まれた Atlas AI ブラウザ をリリースして以来、セキュリティ上の懸念が注目されてきました。研究者たちは、攻撃者がウェブページやドキュメントに特定の指示を埋め込むことで、ユーザーの知らない間にブラウザの下部動作を制御できることを発見しました。AI エージェントはメール送信や支払いの実行などの高権限を持つため、攻撃を受けた場合、機密データの漏洩や誤操作が起こりやすくなります。

この問題に対応するため、OpenAI は差別化された防御アプローチを試しています。彼らは大規模なモデルに基づいた「自動攻撃者」システムを開発しました。このシステムは強化学習技術を利用して、ハッカーの行動をシミュレートし、AI エージェントに対して頻繁な攻防訓練を行います。モデル内部の推論プロセスを深く理解することで、この「ロボットハッカー」は人間のテスト者には気づかれない新しい攻撃経路を見つけることができ、リアルな脅威が発生する前にパッチの修正を行うことを可能にします。

業界の専門家は、AI ブラウザのリスクはその「自律性」と「アクセス権限」の積にあると指摘しています。現在、Google や Brave を含むメーカーも多層的な防御戦略を探っています。OpenAI は、現段階において AI エージェントに広範な権限を与えるのは避け、メールの送信や支払いの開始などの重要なアクションに関しては、必ず人工確認のステップを残すようユーザーに提案しています。