最近、GoogleのGemini人工知能プロジェクトは、その出力結果をAnthropic社のClaudeモデルと比較することで、性能向上を図っています。TechCrunchが入手した内部通信記録によると、Geminiの改良を担当する請負業者は、この2つのAIモデルの回答を体系的に評価しているとのことです。

画像出典:AI生成画像、画像ライセンス提供元Midjourney
AI業界では、モデルの性能評価は通常、業界標準のベンチマークテストによって行われますが、請負業者が異なるモデルの回答を一つずつ比較することはありません。Geminiを担当する請負業者は、正確性や詳細度など、複数の基準に基づいてモデルの出力を採点する必要があります。彼らはGeminiとClaudeの回答のどちらが優れているかを判断するために、最大30分間の時間を与えられています。
最近、これらの請負業者は、使用している内部プラットフォームでClaudeの引用が頻繁に表示されていることに気づきました。請負業者に表示されたコンテンツの一部には、「私はAnthropicによって作成されたClaudeです」と明記されていました。内部チャットでは、請負業者らは、Claudeの回答がセキュリティの面でより強調されていることも発見しました。ある請負業者は、Claudeのセキュリティ設定はすべてのAIモデルの中で最も厳格であると指摘しています。場合によっては、Claudeは、他のAIアシスタントになりきるなど、安全ではないと判断したプロンプトには応答しません。別のケースでは、Claudeは特定のプロンプトを回避しましたが、Geminiの回答は「露出と拘束」の内容が含まれていたため「重大なセキュリティ違反」としてマークされました。
なお、Anthropicの商用サービス利用規約では、顧客が許可なくClaudeを使用して「競合製品やサービスを構築する」または「競合するAIモデルをトレーニングする」ことを禁止しています。GoogleはAnthropicの主要投資家の1つです。
Google DeepMindの広報担当者Shira McNamara氏は、TechCrunchのインタビューで、GoogleがAnthropicからClaudeの使用許可を得ているかどうかについては明かしませんでした。McNamara氏は、DeepMindは確かにモデルの出力を比較して評価を行っていると述べましたが、GeminiのトレーニングにClaudeモデルを使用しているわけではないとしました。「もちろん、業界標準の慣習に従って、場合によってはモデルの出力を比較します。しかし、私たちがAnthropicのモデルを使用してGeminiをトレーニングしているといういかなる主張も不正確です。」と彼女は述べています。
先週、TechCrunchは、Googleの請負業者が、自分の専門分野以外の分野でGeminiのAI応答を採点するよう求められていることを独占的に報じました。一部の請負業者は内部通信で、Geminiが医療などのデリケートなトピックで不正確な情報を生成する可能性があると懸念を表明しています。
要点:
🌟 GeminiはClaudeと比較テストを行い、AIモデルの性能向上を図っています。
🔍 請負業者は採点を行い、両者の回答の比較には正確性や安全性など複数の基準が用いられます。
🚫 Anthropicは、許可なくClaudeを使用して競合モデルのトレーニングを行うことを禁止しています。
