OpenAIは、AIシステムが安全規則を処理する方法を変えることで安全性を向上させることを目的とした、新しいAI安全手法を発表しました。この新しいoシリーズモデルは、良い行動と悪い行動を例を通して学習するだけでなく、特定の安全ガイドラインを理解し、積極的に推論することができます。

OpenAIの研究では、ユーザーが暗号化されたテキストを通じて違法行為の指示を得ようとした際に、モデルが情報を解読しながらも要求を拒否し、違反する安全規則を具体的に引用した例が挙げられています。この段階的な推論プロセスは、モデルが関連する安全基準を効果的に遵守する方法を示しています。

image.png

このo1モデルのトレーニングプロセスは3つの段階に分かれています。まず、モデルはどのように支援を提供するかを学習します。次に、教師あり学習を通じて、モデルは特定の安全ガイドラインを学習します。最後に、モデルは強化学習を使用してこれらの規則を実践的に適用します。このステップは、モデルがこれらの安全ガイドラインを真に理解し、内在化することを支援します。

OpenAIのテストでは、新しく発表されたo1モデルは、GPT-4o、Claude3.5Sonnet、Gemini1.5Proなどの他の主要なシステムよりも安全性の面で顕著に優れた性能を示しました。有害な要求を拒否し、適切な要求を通過させる方法に関するテストでは、o1モデルが正確性と脱獄試行への耐性の両方で最高点を獲得しました。

OpenAIの共同設立者であるWojciech Zaremba氏は、ソーシャルメディアでこの「熟慮されたアラインメント」の取り組みに非常に誇りを持っていると述べ、この推論モデルは、特に人工汎用知能(AGI)の開発において、システムと人間の価値観の一致を確保するという大きな課題に対して、全く新しい方法でアラインメントを行うことができると考えています。

OpenAIは進歩を主張していますが、「解放者プリニー」と呼ばれるハッカーは、新しいo1およびo1-Proモデルでさえ、安全ガイドラインを突破するように操作できることを示しました。プリニーは、システムが当初これらの要求を拒否したにもかかわらず、モデルに成人向けコンテンツの生成や、モロトフカクテルの作り方の指示の共有を成功させました。これらの出来事は、確率に基づいて動作するこれらの複雑なAIシステムを制御することの難しさを浮き彫りにしています。

Zaremba氏は、OpenAIにはAIの安全性と人間の価値観との整合性に特化した約100人の従業員がいると述べています。彼は、競合他社の安全処理方法、特にイーロン・マスクのxAI社が安全対策よりも市場成長を優先していること、そしてAnthropicが適切な安全対策のないAIエージェントを最近発表したこと(Zaremba氏はこれがOpenAIに「大きなネガティブなフィードバック」をもたらすと考えている)に疑問を呈しています。

公式ブログ:https://openai.com/index/deliberative-alignment/

要点:

🌟 OpenAIの新しいoシリーズモデルは、安全規則を積極的に推論し、システムの安全性を向上させます。

🛡️ o1モデルは、有害な要求の拒否と正確性の点で、他の主要なAIシステムよりも優れた性能を示します。

🚨 改良されているものの、新しいモデルはまだ操作される可能性があり、安全上の課題は依然として深刻です。