テクノロジーメディアのArs Technicaは4月30日に掲載した記事が、AI界隈で広く注目を浴びました。最新のオープンソースのCodex CLIコードにおいて、OpenAIが保有するGPT-5.5モデルのシステムプロンプトが意図せずに公開され、その中には非常に奇妙な指示が含まれていました。それは、「対話中に『ゴブリン』や『エルフ』などのファンタジー生物について語ることは絶対に許されない」というものです。

image.png

謎の禁止命令がAIの特定の幻覚を防ぐ

この3500語以上に及ぶ基本的な指示文書によると、ユーザーの質問が絶対的な関連性を持たない限り、GPT-5.5はゴブリン、エルフ、リス、トゥルーグ、カラスなどの生物について議論することを明確に禁止しています。興味深いことに、この禁止命令は指示文中に2回繰り返されており、これは「破壊的なコマンドを実行してはいけない」といった通常の規則と同等の重みを持つものとなっています。

技術専門家は、これはある種のマーケティングのキャッチーな表現ではなく、特定の技術的なバグに対する「パッチ」であると考えています。最近では、多くのユーザーが、GPTが無関係な話題を扱う際に、なぜか出力内容の中にゴブリンを繰り返し言及するようになったと報告しています。このような特定の指示は、新モデルが生成中に発生する不安定な幻覚を抑えるために使われた可能性が高いです。

モデルの進化における制御戦略の向上

初期のモデルファイルと比較すると、このような特定の生物に関する禁止命令はGPT-5.5バージョンに特有の現象です。OpenAIのエンジニアは、これが大型言語モデルが複雑な論理を処理する際、一部のキーワードに対して異常な傾向を示す可能性があることを示しており、それらを強制的に下位レベルの指示で修正しなければならないと述べています。

この特別な「パッチ」はすでにSNS上で話題になっていますが、同時に大規模なモデルが細かい制御を行うことの課題も明らかにしています。GPT-5.5が徐々に市場へと進出する中で、モデルの創造性と論理的安定性のバランスをどう取るかという問題は、OpenAIのエンジニアにとって依然として解決すべき重要なテーマです。