谷歌的 FACTS (Factual Consistency and Truthfulness Score) 團隊與數據科學平臺 Kaggle 於今日聯合發佈了 FACTS 基準測試套件。這是一個旨在衡量生成式人工智能模型在企業任務中事實性 (Factuality) 和真實性的綜合評估框架。
此舉彌補了現有基準測試的重大缺陷——即只關注問題解決能力,而非輸出信息與真實世界數據的客觀一致性,特別是當信息嵌入在圖像或圖表中時。對於法律、金融、醫療等對準確性要求極高的行業而言,FACTS 建立了一個關鍵的標準化衡量體系。

核心發現:AI 距離“完美”仍有距離
FACTS 的初步結果向業界發出了明確信號:儘管模型越來越智能,但它們遠非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在內的所有參測模型,在所有問題上的綜合準確率均未能超過 70%。
正如 FACTS 團隊的新聞稿所指出的,這意味着未來仍有巨大的提升空間。對於技術領導者而言,目前的行業信息是:“信任但要覈實” 的時代遠未結束。
解構 FACTS:企業級故障模式的四大測試
FACTS 測試套件超越了簡單的問答,由四個旨在模擬真實生產環境中的故障模式的子基準測試構成:
參數基準測試 (內部知識): 衡量模型僅依賴訓練數據(內部記憶)回答問題的準確性。
搜索基準測試 (工具使用): 評估模型使用網絡搜索工具檢索和綜合實時信息的能力(RAG 能力)。
多模態基準測試 (視覺): 衡量模型準確解釋圖表、示意圖和圖像,同時避免“幻覺”的能力。
Grounding Benchmark v2(上下文): 評估模型嚴格遵循所提供的源文本(上下文)的能力。
爲了防止模型“污染”,谷歌已向公衆發佈了3,513個示例,而 Kaggle 則負責維護防止訓練的私有數據集。
排行榜:Gemini3Pro 領跑,但“多模態”成最大短板
初始排行榜顯示,Gemini3Pro 以68.8% 的綜合 FACTS 得分領先,但細分數據顯示了模型在不同任務上的真實差距:
| 模型 | FACTS評分(平均值) | 搜索(RAG 能力) | 多模態(視覺) |
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok4 | 53.6% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |
對技術棧的啓示:RAG 系統的必要性
對構建 RAG(檢索增強生成)系統的開發人員而言,數據驗證了當前的企業架構標準:不要依賴模型的內部存儲器來獲取關鍵信息。
數據顯示,模型的**“查找”能力 (搜索)** 遠遠優於其**“認知”能力 (參數化)。例如,Gemini3Pro 在搜索任務中得分高達83.8%,而在參數化任務中僅獲得76.4%。FACTS 結果強烈建議,對於內部知識機器人,連接搜索工具或向量數據庫是唯一**能將準確率提升到可接受生產水平的方法。
多模態警告:低於50% 的準確率
對於產品經理而言,最令人擔憂的是多模態任務的低分。該項指標普遍偏低,即使是表現最好的 Gemini2.5Pro,準確率也僅爲46.9%。由於任務涉及閱讀圖表、解讀示意圖,這表明多模態人工智能尚未準備好進行無監督數據提取。
如果產品路線圖依賴 AI 自動從發票或財務圖表中抓取數據而無需人工審覈,那麼系統將很可能引入高達三分之一的嚴重錯誤率。
結論:FACTS 將成採購新標杆
FACTS 基準測試很可能成爲企業級 AI 模型採購領域的新標準。技術負責人應根據用例匹配的具體子基準測試進行評估:
客戶支持機器人: 關注 合規性評分(Gemini2.5Pro 在此項得分74.2%,高於 Gemini3Pro 的69.0%)。
研究助手: 優先考慮 搜索評分。
圖像分析工具: 務必極其謹慎,並假定原始模型在約三分之一的情況下可能會出錯。
