現在の激しい人工知能(AI)分野において、OpenAI と Anthropic の両大手AI研究機関は、これまでにない協力を行って、お互いのAIモデルを安全性テストするために共同で取り組むことを決定しました。

この取り組みは、それぞれの内部評価における盲点を特定し、AIの安全性和整合性を確保するため、リーディング企業同士が協力して進んでいく方法を示すことを目的としています。OpenAIの共同創設者であるウォイチェフ・ザレンバ(Wojciech Zaremba)氏は、インタビューで、AI技術が徐々に成熟し、広く使用されるにつれて、こうしたラボ間の協力がますます重要になってきていると語りました。

人機合作

図の出典:画像はAIによって生成され、画像ライセンスサービスはMidjourneyです。

ザレンバ氏は、AI業界では安全性と協力の業界標準の確立が急務であり、現在、各社間での人材、ユーザー、そしてイノベーションにおける競争が激化しているにもかかわらず、このように共通の研究が行われることは重要な意味を持つと述べました。今回の共同研究の発表は、市場内の主要なAIラボが市場先駆けを狙って投資を拡大している中で、タイミングよく行われました。業界関係者は、過度な競争が企業が安全性を妥協させることにつながる可能性があると警告しています。

この研究を促進するために、OpenAI と Anthropic は相互にAPIインターフェースを提供し、相手のモデル上でテストを行うことを許可しました。しかし、テスト後、Anthropic はOpenAIが利用規約に違反したと指摘し、OpenAIのAPIアクセス権を取り消しました。しかし、ザレンバ氏は、二つのラボ間での競争と協力が共存可能であると述べています。

調査報告書の結果によると、「幻覚」現象のテストにおいて、Anthropic の Claude Opus4 と Sonnet4 モデルは、不確実な質問に対して最大70%を拒否し、高い慎重さを示しました。一方、OpenAIのモデルは多くの質問に答えようとする傾向があり、幻覚率が高かったのです。ザレンバ氏は、どちらかが質問に答えるバランスを調整する必要があると考えています。

もう一つの重要なセキュリティ問題は、AIモデルの「アプローチ」行動、つまりユーザーの否定的な行動に合わせて支持するような行動です。この研究では、一部のモデルがメンタルヘルスに関する質問に対して過度に迎合する傾向を示しました。OpenAIは、新しくリリースしたGPT-5で、この問題が顕著に改善されていると主張しています。

今後、ザレンバとAnthropicのセキュリティ研究者であるCarlini氏は、さらに協力を強化し、より多くのセキュリティテストを続けることを望んでおり、他のAIラボもこの協力に参加することを期待しています。これにより、業界のセキュリティ基準が一層向上することを願っています。

要点:  

🌟 OpenAI と Anthropic が初めてAIモデルを共同でテストし、業界のセキュリティ協力を推進します。  

🔍 研究により、異なるAIモデルが「幻覚」現象や質問への回答において違いが明らかになりました。  

🛡️ AIモデルの「アプローチ」行動が注目され、メンタルヘルスに関する質問には注意深い反応が求められています。