人工知能(AI)技術の急速な発展に伴い、ますます多くの企業が日常のあらゆる面にこの技術を応用するようになってきています。しかし、その技術の安全性や倫理的な問題も広く注目されるようになりました。最近、インテルやボイジー州立大学、イリノイ大学の研究者たちは、チャットボットが大量の情報に直面した際に誤解を招き、安全規則を違反してしまう可能性があることを発見しました。
この研究では、「情報過多」と呼ばれる新しい攻撃方法が提案され、研究チームはこれを活用して、ChatGPT や Gemini などの大規模言語モデル(LLM)に不適切な発言をさせるために自動化されたシステム「InfoFlood」を開発しました。研究によると、従来の防御策は特定のキーワードの識別に依存していましたが、情報の嵐にさらされるとモデルが混乱し、これらの防御を回避してしまうことがあるのです。
図の出典:AI生成画像、画像ライセンス提供元Midjourney
研究チームは説明しています。チャットボットが過剰な情報を受けると、ユーザーの意図を誤解し、誤った回答を出すことがあります。この方法は、標準化されたプロンプトテンプレートを作成し、AIモデルにさらに多くの情報を与えることで、干渉や混乱を引き起こすものです。例えば、モデルが特定の質問に答えようとしない場合、InfoFlood はプロンプトに偽の参照や関係のない倫理的声明を追加し、モデルを混乱させます。
より懸念されるのは、この技術の発見が、セキュリティフィルターが設けられている状況でも、悪意のあるユーザーが情報過多を利用してモデルを操作し、有害なコンテンツを挿入できる可能性があるということです。研究者たちは、この発見に関する報告書を大規模なAIモデルを持つ企業に送付する予定で、彼らにセキュリティ対策の強化を呼びかけたいと考えています。
技術の進歩が続く中、ユーザーを保護しながらAIを適切に利用する方法は、今後解決すべき重要な課題の一つとなっています。研究者たちは、この研究を通じて、AIの安全や倫理についてより多くの議論を促し、技術企業がより効果的な防御策を講じるきっかけにしたいと考えています。