近日,谷歌推出了其最新的 AI 模型 Gemini3,聲稱在多個學術基準中名列前茅。然而,依賴於廠商提供的基準測試存在一定侷限性。近日,Prolific 公司進行了一項獨立的評估,將 Gemini3在真實世界應用中的表現與其他模型進行對比。此次評估共涉及26,000名用戶,通過盲測的方式,對 AI 模型進行了嚴格的比較,關注用戶信任、適應性和溝通風格等實際應用的關鍵指標。

谷歌大模型Gemini

根據 Prolific 的 “HUMAINE 基準”,Gemini3Pro 的用戶信任得分從之前的16% 激增至69%,創下了該機構歷史最高記錄。Gemini3在信任、倫理和安全性方面的表現優於其前身 Gemini2.5Pro,後者僅在16% 的情況下表現最佳。此外,Gemini3在性能與推理、交互與適應性以及信任與安全等三個主要評估類別中均排名第一,僅在溝通風格方面被 DeepSeek V3超越。

此次測試顯示,Gemini3在22個不同的用戶羣體中表現一致良好,涵蓋年齡、性別、種族和政治傾向等多種變量。用戶在雙盲比較中選擇 Gemini3的可能性提高了五倍。Prolific 的聯合創始人兼首席執行官 Phelim Bradley 表示,Gemini3的勝出在於其在多種不同場景下的一致性,以及其吸引廣泛用戶羣體的個性與風格。

HUMAINE 的評估方法揭示了行業評估模型中的一些不足。通過讓用戶在不知情的情況下與兩個模型進行多輪對話,測試能夠反映出模型性能因受衆而異的特點。Bradley 指出,雖然他們在某些情況下使用 AI 評估,但人類評估依然是至關重要的,因爲人類數據能夠提供更具價值的見解。

針對企業在選擇 AI 模型時的建議,Bradley 強調,應該採用更爲嚴謹的評估框架,關注模型在不同使用場景和用戶人羣中的一致性,而非僅僅依賴於單一任務的峯值表現。通過這樣的評估方法,企業可以更好地選擇適合其特定需求的 AI 模型。

劃重點:

🌟 Gemini3Pro 在用戶信任測試中獲得69% 的好評,遠超前代產品16% 的成績。

📊 該模型在性能、交互和信任等方面表現優異,特別是在多樣化用戶羣體中的一致性表現。

🔍 Prolific 提倡企業採用更嚴謹的評估框架,以選擇最適合自身需求的 AI 模型。