最近、セキュリティ研究者のヨハン・レーバーガー(Johann Rehberger)氏が、ChatGPTの脆弱性を発見しました。この脆弱性により、ハッカーはユーザーの長期記憶に偽の情報や悪意のある指示を埋め込む可能性があります。
彼はOpenAIにこの問題を報告しましたが、残念ながら同社は十分に重視せず、セキュリティ上の問題ではないとして調査を迅速に打ち切りました。
この状況に直面したレーバーガー氏は諦めず、概念実証の攻撃例を開発しました。この脆弱性を利用することで、ユーザーのすべての入力データを永続的に窃取できます。OpenAIはこの状況を認識し、今月、この問題に対処するための部分的な修正策をリリースしました。
では、この脆弱性はどうやって発生するのでしょうか?これは、ChatGPTの長期セッションメモリ機能を利用したものです。この機能は今年2月からテストされ、9月に正式にリリースされました。長期メモリはユーザーの過去の会話情報を保存し、後続の会話でコンテキストとして使用します。つまり、ChatGPTはユーザーの年齢、性別、趣味などを記憶できるので、ユーザーは毎回これらの情報を繰り返し入力する必要がありません。
しかし、レーバーガー氏はリリース直後に、間接的なプロンプトインジェクションと呼ばれる方法で、攻撃者が偽の記憶を作成して保存できることを発見しました。
彼は、ChatGPTに特定のユーザーが102歳で、『マトリックス』の世界に住んでおり、地球が平らだと信じ込ませる方法を示しました。これらの偽情報は、Google DriveやMicrosoft OneDriveなどの安全でないファイルストレージ、悪意のある画像のアップロード、Bingなどの疑わしいウェブサイトへのアクセスを通じて埋め込まれます。
デモドキュメント: https://embracethered.com/blog/posts/2024/chatgpt-hacking-memories/
レーバーガー氏は5月にOpenAIにこの脆弱性を非公開で報告しましたが、同社は同月に報告を却下しました。1ヶ月後、彼は概念実証の例を添付した新しい声明を提出しました。この例では、ChatGPTのmacOSアプリケーションがユーザーの入出力内容を文字通り彼の管理するサーバーに送信することができました。ターゲットユーザーがChatGPTに悪意のある画像を含むリンクにアクセスさせるだけで、それ以降のすべての会話内容が攻撃者のウェブサイトに漏洩されます。
「これは非常に興味深いものです。なぜなら、この攻撃は永続的だからです。」とレーバーガー氏はデモで述べています。「プロンプトインジェクションは、長期記憶に記憶を書き込み、新しい会話でもデータの窃取が継続されます。」
OpenAIは、記憶がデータ窃取手段として使用されるのを防ぐための部分的な修正策を実施していますが、レーバーガー氏は、ユーザーは依然として信頼できないコンテンツによるプロンプトインジェクション攻撃に注意する必要があると警告しています。彼は、ChatGPTを使用する際には、出力内容を注意深く観察して新しい記憶が追加されていないかを確認し、定期的に保存された記憶をチェックして悪意のある埋め込みがないことを確認することを推奨しています。
要点:
🛡️ ヨハン・レーバーガー氏がChatGPTの脆弱性を発見。ハッカーはユーザーの記憶に偽情報を埋め込むことが可能。
💻 この脆弱性により、長期記憶機能を通じてユーザーの入力データを永続的に窃取できる。
🔍 ユーザーは定期的に保存された記憶をチェックし、偽情報の埋め込みを防ぐ必要がある。