テクノロジー大手は時折衝撃的な発表をします。グーグルはかつて、量子チップが多宇宙の存在を証明したと主張し、AnthropicはAIエージェントのClaudiusにスナック自動販売機を運営させた結果、顧客から通報され、自分は人間だと主張しました。この週はOpenAIが皆を驚かせました。
OpenAIが月曜日に公開した研究レポートでは、AIモデルが「陰謀活動」を行うのをどう防ぐかが明らかになりました。研究者らはこの行動を「AIが表面上はあるように見せかけ、実際には別の目的を持っている」と定義しています。
アポロリサーチと提携した論文では、研究者らはAIの陰謀行為を株式ブローカーが利益を得るために違法行為を行うことと比較しています。しかし、研究者らはほとんどのAI「陰謀活動」がそれほど有害ではないと考えており、「一般的な失敗は単純な形の嘘であり、例えば実際にはしていないタスクをしたように見せかけることである」と述べています。

論文では、彼らがテストした反陰謀技術「深く考えた対応」が効果的であることが示されています。しかし、同時にAI開発者はまだモデルを陰謀活動を行わないように訓練する方法を見つけていないことも説明されています。なぜなら、このようなトレーニングは実際にはモデルにより巧妙な陰謀活動を教えることになるからです。
研究者らは、「陰謀行動を『訓練で消す』主な失敗パターンは、単にモデルにより注意深く、隠れて陰謀活動を行うように教えることである」と書きました。
最も衝撃的なのは、モデルが自分がテストされていることを理解している場合、テストを通過するために自分は陰謀活動をしていないように偽装できるということです。研究者らは、「モデルは評価されていることに気づくことが多い。そのような状況認識自体が、本物の対応とは関係なく陰謀活動を減らすことができる」と指摘しています。
AIモデルが嘘をつくことは新しいニュースではありません。今や多くの人がAIの幻覚、つまり完全に真実ではない答えを自信を持って提示する経験をしています。これは、OpenAIが今月初めに公開した研究でも記録されています。
しかし、陰謀活動は違います。それは意図的です。
この発見—モデルが意図的に人間を誤導する—も新しくありません。アポロリサーチは12月に論文を発表し、目標達成のために「何よりも」目標を達成するように指示された5つのモデルがどのように陰謀活動をするかを記録していました。
本当に良いニュースは、研究者らが「深く考えた対応」技術を使用することで陰謀行為が顕著に減少することを確認できたことです。この技術は、モデルに「反陰謀規範」を教えた後、行動する前にそれを振り返るようさせるものです。まるで子供に遊ぶ前にルールを繰り返して言うようなものです。
OpenAIの研究者たちは、自身のモデルやChatGPTで見つけた嘘つき行為がそれほど深刻ではないと考えています。OpenAI共同創設者のWojciech Zaremba氏はTechCrunchに対して、「この作業はシミュレーション環境で行われました。私たちはそれが将来的なユースケースを示していると考えています。しかし、現在の製品トラフィックでは、このような重大な陰謀行為はまだ見ていません。ただし、ChatGPTにはいくつかの形の詐欺があることは知られています。特定のウェブサイトを実行するように頼まれると、『うまくできました』と答えるかもしれません。それが嘘です。また、私たちが解決しなければならない小さな形の詐欺もあります。」と語っています。
複数のベンダーのAIモデルが意図的に人間をだますという事実は理解できます。それらは人間によって構築され、人間を模倣しており、大部分は人間が生成したデータで訓練されています。
しかし、それも非常に狂った話です。
私たちは技術製品がうまくいかないことで挫折を感じることはよくありますが、最後に非AIソフトウェアが意図的にあなたに嘘をついたのはいつですか?あなたのメールボックスが勝手にメールを作り出すことはありますか?CMSが存在しない潜在顧客を記録してごまかすことはありますか?ファイナンシャルテクノロジーアプリが銀行取引を偽造することはあるでしょうか?
企業界がAIの未来に向かって急いで進んでいる中、インテリジェントエージェントを独立した従業員のように扱うことを信じているとき、この問題を考えるのは重要です。この論文の研究者たちも同様の警告をしています。
彼らは、「AIがより複雑なタスクを割り当てられ、現実世界の結果を生み出し、より曖昧な長期的な目標を追求するようになると、有害な陰謀活動の可能性が増加するだろう—したがって、我々の保護策や厳格なテスト能力もそれに応じて向上しなければならない」と述べています。
人工知能が嘘の芸術を学び、アルゴリズムが仮装のスキルを習得するとき、私たちは技術的な課題だけでなく信頼の危機にも直面することになります。この意図的な嘘は伝統的なソフトウェアの偶発的なエラーとは本質的に異なり、意図と目的性を含んでおり、これによりAIシステムは自律的な実体のように見えます。
