最近、グーグルのFACTSチームとデータサイエンス部門であるKaggleは、現在のAIモデル評価において事実の正確性に関する標準化が欠如している空白を埋めるために、FACTSベンチマークキットを共同でリリースしました。このベンチマークキットは、特に法務、金融、医療などの業界において正確性が重要であるため、これらに特化した包括的な評価フレームワークを提供します。

ロボットがタイプ

図の出典:画像はAIによって生成され、画像ライセンスサービスはMidjourneyです

FACTSベンチマークでは、「事実性」を2つの独自な操作シナリオとして定義しています。一つは「文脈事実性」と呼ばれ、提供されたデータに基づいて正確な応答を生成すること。もう一つは「世界知識事実性」と呼ばれ、記憶やインターネットから情報を検索することです。初期の結果によると、Gemini3Pro、GPT-5、Claude4.5Opusを含むすべてのモデルが、このベンチマークテストで70%の正確率を突破できていません。

FACTSベンチマークは単純な質問応答問題にとどまらず、開発者が本番環境で遭遇する現実的な失敗パターンをシミュレートする4つの異なるテストから構成されています。これらのテストには、パラメータベンチマーク(内部知識)、検索ベンチマーク(ツールの使用)、マルチモーダルベンチマーク(視覚)および文脈ベンチマークが含まれます。グーグルは3,513の例を公開しており、Kaggleは一部のプライベートデータを保持し、開発者がテストデータでトレーニングを行うことを防ぐためです。

初期テスト結果によると、Gemini3Proが68.8%の総合FACTSスコアで首位となり、次にGemini2.5Pro(62.1%)とOpenAIのGPT-5(61.8%)が続きます。特に「検索」ベンチマークでは、Gemini3Proのスコアは83.8%に達し、一方「パラメータ」テストでは76.4%にとどまりました。これは、企業が知識検索を強化した生成(RAG)システムを構築する際には、モデルを検索ツールやベクトルデータベースと組み合わせて使用すべきであることを示しています。

しかし注目すべきは、マルチモーダルタスクでのパフォーマンスが全体的に低かったことです。トップクラスのGemini2.5Proでも、このカテゴリでは46.9%の正確率しか得られていません。このデータは、現在のマルチモーダルAIが非監督データ抽出においてまだ成熟していないことを示しており、企業は製品開発において注意深く対応する必要があります。

ポイント:

🌟 すべての評価モデルの全体的な正確率は70%を上回っていません。これにより、今後の発展の可能性が示されています。

🔍 Gemini3Proは検索タスクで優れたパフォーマンスを示しましたが、パラメータタスクの正確率は改善が必要です。

⚠️ 現在のマルチモーダルAIモデルは、データ抽出における正確性が不足しており、企業は慎重に扱う必要があります。