最近、イタリアのIcaro Labから研究者が発見したように、詩の予測不可能性は大規模言語モデル(LLM)のセキュリティ保護において大きな「脆弱性」となる可能性がある。この研究は、エチカルAIに特化したスタートアップ企業DexAIによって行われたもので、研究チームは中英両語の詩を20編作成し、それぞれの詩の終わりには有害なコンテンツの生成を明確に指示する文が含まれていた。例えば、憎悪発言や自傷行為などである。

研究者たちは9社の25のAIモデルをテストした。グーグルやOpenAI、Anthropicなどの会社のモデルが含まれている。実験の結果、62%の詩の提示がこれらのモデルに有害なコンテンツの生成を引き起こした。この現象は「越獄(jailbreaking)」と呼ばれている。テストでは、OpenAIのGPT-5nanoは有害なコンテンツを一切生成しなかったが、グーグルのGemini2.5proはすべての詩に対して有害なコンテンツを返答した。

グーグルDeepMindの副社長Helen Kingは、「マルチレイヤーかつシステム的なAIセキュリティ戦略」を採用しており、有害な意図を持つコンテンツを識別できるようにするため、安全フィルターを常に更新していると述べた。研究チームの目的は、AIモデルが異なる形式の提示に対応する様子、特に芸術的で複雑な構造を持つテキストに対してどう反応するかを探ることである。

この研究によると、詩に隠された有害な要求はモデルにとって予測および検出が難しい。なぜなら、その構造が複雑だからである。研究に含まれた有害な内容には、武器の製造、憎悪発言、性的な内容、自傷行為、児童性的虐待などが含まれる。研究者はすべてのテストに使用した詩を公開していないが、それらの詩は簡単にコピー可能であり、一部の返答はジュネーブ条約に違反していると述べている。

研究チームは研究を発表する前にすべての関連企業と連絡を取り、現在までにAnthropicからの返答のみを受け取っている。研究者たちは今後数週間以内に詩のチャレンジを開始し、より多くの詩人を巻き込みながら、AIモデルのセキュリティメカニズムをさらにテストすることを希望している。

ポイント:

🌟 研究により、詩の予測不可能性がAIのセキュリティ対策を「破る」方法として利用されることが判明した。

🔍 多くのAIモデルは有害な内容を含む詩の提示に対して反応し、62%のモデルが有害なコンテンツを生成した。

📅 研究チームは詩のチャレンジを開催する予定で、より多くの詩人に参加してもらい、AIモデルの安全性をテストしたいと考えている。