グーグルがFACTSベイステストを発表：AIの事実の壁を明らかに　すべてのトップモデルの正確率は70％未満

グーグルのFACTS（Factual Consistency and Truthfulness Score）チームとデータサイエンスプラットフォームであるKaggleは、本日、FACTSベンチマークキットを共同で発表しました。これは、生成AIモデルが企業のタスクにおいて事実性（Factuality）と真実性を測定するための包括的な評価フレームワークです。

この取り組みは、現存するベンチマークテストの大きな欠点を補うものです。それは、問題解決能力に焦点を当てている一方で、出力情報が現実世界のデータと客観的に一致しているかどうか、特に画像やグラフに情報を埋め込んでいる場合に注目していない点です。法務、金融、医療など、正確さが極めて重要な業界において、FACTSは重要な基準を設けました。

AI音楽人工知能 (3)

主要な発見：AIは「完璧」に遠く及ばない

FACTSの初期結果は、業界に明確なメッセージを送っています。モデルがますます知的になっていくにもかかわらず、それらはまだ完全ではありません。Gemini3Pro、GPT-5、Claude4.5Opusなど、すべての参加モデルが、すべての質問に対して総合的な正確率が70％

FACTSチームのプレスリリースによると、これは今後の大きな改善余地があることを示しています。技術リーダーにとって現在の業界の情報は：「信じるが検証する」時代は終わっていません。

FACTSの構造：企業向けの故障パターンの4つのテスト

FACTSテストキットは単純な質問応答を超え、リアルな生産環境における故障パターンをシミュレートする4つのサブベンチマークテストから構成されています：

パラメーターベンチマーク（内部知識）: モデルがトレーニングデータ（内部記憶）にのみ依存して質問に答えられる精度を測定します。
検索ベンチマーク（ツールの使用）: モデルがネットワーク検索ツールを使用してリアルタイム情報を取り込み、統合する能力（RAG能力）を評価します。
マルチモーダルベンチマーク（視覚）: モデルがグラフ、図解、画像を正確に解釈し、「幻覚」を避ける能力を測定します。
Grounding Benchmark v2（文脈）: モデルが提供されたソーステキスト（文脈）に厳密に従う能力を評価します。

モデルが「汚染」されることを防ぐために、グーグルは3,513の例を公開し、Kaggleは訓練用のプライベートデータセットを管理しています。

ランキング：Gemini3Proが首位、だが「マルチモーダル」が最大の弱点

初期のランキングでは、Gemini3Proが68.8％の総合 FACTS スコアでトップに立ちましたが、細分化されたデータにはモデルの異なるタスクでの実際のギャップが示されています：

モデル	FACTSスコア（平均）	検索（RAG能力）	マルチモーダル（視覚）
Gemini3Pro	68.8％	83.8％	46.1％
Gemini2.5Pro	62.1％	63.9％	46.9％
GPT-5	61.8％	77.7％	44.1％
Grok4	53.6％	75.3％	25.7％
Claude4.5Opus	51.3％	73.2％	39.2％

技術スタックへの示唆：RAGシステムの必要性

RAG（検索増強生成）システムを構築する開発者にとって、データは現在の企業アーキテクチャの標準を確認しています：重要な情報を取得するためにモデルの内部記憶に頼らないこと。

データは、モデルの**「検索能力（検索）**」がその**「認知能力（パラメータ化）**」よりもはるかに優れていることを示しています。例えば、Gemini3Proは検索タスクで83.8％のスコアを獲得し、パラメータ化タスクでは76.4％でした。FACTSの結果は、内部知識ロボットの場合、検索ツールやベクトルデータベースに接続することが、正確度を可接受な生産レベルに引き上げる**唯一の方法**であることを強く示唆しています。

マルチモーダル警告：50％未満の正確度

製品責任者にとって最も懸念すべきことは、マルチモーダルタスクの低いスコアです。この指標は一般的に低く、最も良いとされるGemini2.5Proでも正確度は46.9％にとどまります。 グラフや図解を読んだり解釈したりするタスクに関与しているため、これはマルチモーダルAIが無監督データ抽出には準備されていないことを示しています。

もし製品のロードマップがAIによって請求書や財務グラフからデータを自動的に取得するように設計されている場合、システムは約1/3の重大な誤り率をもたらす可能性があります。

結論：FACTSが購買の新基準となる

FACTSベンチマークテストは、企業向けAIモデルの購入分野で新しい基準になるでしょう。技術責任者は、使用ケースに応じて具体的なサブベンチマークテストに基づいて評価を行う必要があります：

カスタマーサポートロボット： コンプライアンススコアに注目してください（Gemini2.5Proは74.2％、Gemini3Proは69.0％）。
研究アシスタント： 検索スコアを最優先に。
画像分析ツール： 非常に慎重であり、モデルが約1/3の確率でエラーを起こす可能性があると仮定してください。

グーグルがFACTSベイステストを発表：AIの事実の壁を明らかに　すべてのトップモデルの正確率は70％未満

主要な発見：AIは「完璧」に遠く及ばない

FACTSの構造：企業向けの故障パターンの4つのテスト

ランキング：Gemini3Proが首位、だが「マルチモーダル」が最大の弱点

技術スタックへの示唆：RAGシステムの必要性

マルチモーダル警告：50％未満の正確度

結論：FACTSが購買の新基準となる

関連推奨

グーグルがマイ広告センターに新しい機能をリリース: オートディスクロージャーによるAI広告情報の生成

マイクロソフトがiPads版Wordの新バージョンをテスト: カピロットAIアシスタントとの深く統合されたドキュメント編集の補助

グーグル写真にAI動画ミキシング機能が登場：Gemini Omniを搭載し、数秒で映画のような編集を実現

15歳の少年がAIを用いてランサムウェア攻撃を実行し、有名なプラットフォームの全サイト停止を引き起こす

グーグルがGemini APIの無料枠を全面的に拡充：一部のモデルの分当たり処理量が百万レベルに急増

グーグルがFACTSベイステストを発表：AIの事実の壁を明らかに すべてのトップモデルの正確率は70％未満

主要な発見：AIは「完璧」に遠く及ばない

FACTSの構造：企業向けの故障パターンの4つのテスト

ランキング：Gemini3Proが首位、だが「マルチモーダル」が最大の弱点

技術スタックへの示唆：RAGシステムの必要性

マルチモーダル警告：50％未満の正確度

結論：FACTSが購買の新基準となる

関連推奨

グーグルがマイ広告センターに新しい機能をリリース: オートディスクロージャーによるAI広告情報の生成

マイクロソフトがiPads版Wordの新バージョンをテスト: カピロットAIアシスタントとの深く統合されたドキュメント編集の補助

グーグル写真にAI動画ミキシング機能が登場：Gemini Omniを搭載し、数秒で映画のような編集を実現

15歳の少年がAIを用いてランサムウェア攻撃を実行し、有名なプラットフォームの全サイト停止を引き起こす

グーグルがGemini APIの無料枠を全面的に拡充：一部のモデルの分当たり処理量が百万レベルに急増

グーグルがFACTSベイステストを発表：AIの事実の壁を明らかに　すべてのトップモデルの正確率は70％未満