グーグルのFACTS(Factual Consistency and Truthfulness Score)チームとデータサイエンスプラットフォームであるKaggleは、本日、FACTSベンチマークキットを共同で発表しました。これは、生成AIモデルが企業のタスクにおいて事実性(Factuality)と真実性を測定するための包括的な評価フレームワークです。
この取り組みは、現存するベンチマークテストの大きな欠点を補うものです。それは、問題解決能力に焦点を当てている一方で、出力情報が現実世界のデータと客観的に一致しているかどうか、特に画像やグラフに情報を埋め込んでいる場合に注目していない点です。法務、金融、医療など、正確さが極めて重要な業界において、FACTSは重要な基準を設けました。

主要な発見:AIは「完璧」に遠く及ばない
FACTSの初期結果は、業界に明確なメッセージを送っています。モデルがますます知的になっていくにもかかわらず、それらはまだ完全ではありません。Gemini3Pro、GPT-5、Claude4.5Opusなど、すべての参加モデルが、すべての質問に対して総合的な正確率が70%
FACTSチームのプレスリリースによると、これは今後の大きな改善余地があることを示しています。技術リーダーにとって現在の業界の情報は:「信じるが検証する」時代は終わっていません。
FACTSの構造:企業向けの故障パターンの4つのテスト
FACTSテストキットは単純な質問応答を超え、リアルな生産環境における故障パターンをシミュレートする4つのサブベンチマークテストから構成されています:
パラメーターベンチマーク(内部知識): モデルがトレーニングデータ(内部記憶)にのみ依存して質問に答えられる精度を測定します。
検索ベンチマーク(ツールの使用): モデルがネットワーク検索ツールを使用してリアルタイム情報を取り込み、統合する能力(RAG能力)を評価します。
マルチモーダルベンチマーク(視覚): モデルがグラフ、図解、画像を正確に解釈し、「幻覚」を避ける能力を測定します。
Grounding Benchmark v2(文脈): モデルが提供されたソーステキスト(文脈)に厳密に従う能力を評価します。
モデルが「汚染」されることを防ぐために、グーグルは3,513の例を公開し、Kaggleは訓練用のプライベートデータセットを管理しています。
ランキング:Gemini3Proが首位、だが「マルチモーダル」が最大の弱点
初期のランキングでは、Gemini3Proが68.8%の総合 FACTS スコアでトップに立ちましたが、細分化されたデータにはモデルの異なるタスクでの実際のギャップが示されています:
| モデル | FACTSスコア(平均) | 検索(RAG能力) | マルチモーダル(視覚) |
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok4 | 53.6% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |
技術スタックへの示唆:RAGシステムの必要性
RAG(検索増強生成)システムを構築する開発者にとって、データは現在の企業アーキテクチャの標準を確認しています:重要な情報を取得するためにモデルの内部記憶に頼らないこと。
データは、モデルの**「検索能力(検索)**」がその**「認知能力(パラメータ化)**」よりもはるかに優れていることを示しています。例えば、Gemini3Proは検索タスクで83.8%のスコアを獲得し、パラメータ化タスクでは76.4%でした。FACTSの結果は、内部知識ロボットの場合、検索ツールやベクトルデータベースに接続することが、正確度を可接受な生産レベルに引き上げる**唯一の方法**であることを強く示唆しています。
マルチモーダル警告:50%未満の正確度
製品責任者にとって最も懸念すべきことは、マルチモーダルタスクの低いスコアです。この指標は一般的に低く、最も良いとされるGemini2.5Proでも正確度は46.9%にとどまります。 グラフや図解を読んだり解釈したりするタスクに関与しているため、これはマルチモーダルAIが無監督データ抽出には準備されていないことを示しています。
もし製品のロードマップがAIによって請求書や財務グラフからデータを自動的に取得するように設計されている場合、システムは約1/3の重大な誤り率をもたらす可能性があります。
結論:FACTSが購買の新基準となる
FACTSベンチマークテストは、企業向けAIモデルの購入分野で新しい基準になるでしょう。技術責任者は、使用ケースに応じて具体的なサブベンチマークテストに基づいて評価を行う必要があります:
カスタマーサポートロボット: コンプライアンススコアに注目してください(Gemini2.5Proは74.2%、Gemini3Proは69.0%)。
研究アシスタント: 検索スコアを最優先に。
画像分析ツール: 非常に慎重であり、モデルが約1/3の確率でエラーを起こす可能性があると仮定してください。
