最近、グーグルは最新のAIモデル「Gemini3」をリリースし、多くの学術基準でトップに立っていると主張しています。しかし、ベンダーが提供する基準テストには一定の限界があります。最近、Prolific社は独立した評価を行い、Gemini3の実際の使用状況におけるパフォーマンスを他のモデルと比較しました。この評価では26,000人のユーザーが参加し、盲検方式によってAIモデルを厳しく比較し、ユーザーの信頼性、適応性、コミュニケーションスタイルなどの実用的な指標に注目しました。

グーグルの大規模モデルGemini

Prolificの「HUMAINE基準」によると、Gemini3Proのユーザー信頼スコアは前回の16%から69%に急騰し、同機関の歴史的最高記録を更新しました。Gemini3は、信頼性、倫理、セキュリティにおいて、以前のバージョンであるGemini2.5Proを上回り、後者は16%のケースでのみ最良の結果を示しました。さらに、Gemini3は性能と推論、インタラクションと適応性、信頼とセキュリティの3つの主要な評価カテゴリで第1位を獲得し、コミュニケーションスタイルを除いては他モデルを上回りました。

このテストにより、Gemini3は22の異なるユーザー層で一貫して良好なパフォーマンスを示すことが判明しました。これは年齢、性別、人種、政治的傾向などの多様な変数を含んでいます。二重盲検比較において、Gemini3を選択する可能性は5倍に増加しました。Prolificの共同創設者兼CEOのPhelim Bradley氏は、Gemini3が優れている理由は、さまざまなシナリオでの一貫性と、広範なユーザー層を惹きつける個性とスタイルにあると語っています。

HUMAINEの評価方法は、業界の評価モデルにいくつかの欠点を明らかにしました。ユーザーが無作為に2つのモデルと複数回の会話をすることにより、モデルのパフォーマンスが対象によって異なる特徴を反映することができます。Bradley氏は、一部の状況でAI評価を使用しているものの、人間による評価は依然として重要であり、人間のデータがより価値のある洞察を提供できると指摘しました。

企業がAIモデルを選ぶ際のアドバイスとして、Bradley氏は、単一タスクのピークパフォーマンスに依存するだけでなく、モデルのさまざまな使用シーンやユーザー層における一貫性を注目するより厳格な評価フレームワークを採用すべきだと強調しました。このような評価方法により、企業は自社の特定のニーズに合ったAIモデルをより良く選ぶことができるのです。

重要なポイント:

🌟 Gemini3Proはユーザー信頼テストで69%の好評を獲得し、前世代製品の16%を大幅に上回っています。

📊 このモデルは性能、インタラクション、信頼性などにおいて優れた結果を示しており、特に多様なユーザー層における一貫性が際立っています。

🔍 Prolificは、企業が自身のニーズに最も合うAIモデルを選ぶために、より厳格な評価フレームワークを採用することを提案しています。