谷歌新款 AI Gemini3 Pro 在用戶信任測試中獲69%好評

近日，谷歌推出了其最新的 AI 模型 Gemini3，聲稱在多個學術基準中名列前茅。然而，依賴於廠商提供的基準測試存在一定侷限性。近日，Prolific 公司進行了一項獨立的評估，將 Gemini3在真實世界應用中的表現與其他模型進行對比。此次評估共涉及26，000名用戶，通過盲測的方式，對 AI 模型進行了嚴格的比較，關注用戶信任、適應性和溝通風格等實際應用的關鍵指標。

谷歌大模型Gemini

根據 Prolific 的 “HUMAINE 基準”，Gemini3Pro 的用戶信任得分從之前的16% 激增至69%，創下了該機構歷史最高記錄。Gemini3在信任、倫理和安全性方面的表現優於其前身 Gemini2.5Pro，後者僅在16% 的情況下表現最佳。此外，Gemini3在性能與推理、交互與適應性以及信任與安全等三個主要評估類別中均排名第一，僅在溝通風格方面被 DeepSeek V3超越。

此次測試顯示，Gemini3在22個不同的用戶羣體中表現一致良好，涵蓋年齡、性別、種族和政治傾向等多種變量。用戶在雙盲比較中選擇 Gemini3的可能性提高了五倍。Prolific 的聯合創始人兼首席執行官 Phelim Bradley 表示，Gemini3的勝出在於其在多種不同場景下的一致性，以及其吸引廣泛用戶羣體的個性與風格。

HUMAINE 的評估方法揭示了行業評估模型中的一些不足。通過讓用戶在不知情的情況下與兩個模型進行多輪對話，測試能夠反映出模型性能因受衆而異的特點。Bradley 指出，雖然他們在某些情況下使用 AI 評估，但人類評估依然是至關重要的，因爲人類數據能夠提供更具價值的見解。

針對企業在選擇 AI 模型時的建議，Bradley 強調，應該採用更爲嚴謹的評估框架，關注模型在不同使用場景和用戶人羣中的一致性，而非僅僅依賴於單一任務的峯值表現。通過這樣的評估方法，企業可以更好地選擇適合其特定需求的 AI 模型。

劃重點:
🌟 Gemini3Pro 在用戶信任測試中獲得69% 的好評，遠超前代產品16% 的成績。
📊 該模型在性能、交互和信任等方面表現優異，特別是在多樣化用戶羣體中的一致性表現。
🔍 Prolific 提倡企業採用更嚴謹的評估框架，以選擇最適合自身需求的 AI 模型。

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

階躍星辰發佈面向手機、車載等終端的Step Edge系列模型，包含基礎版、Audio版、GUI版及Gen版。該模型支持本地處理圖文音頻，能實現屏幕理解、語音識別、界面操作與圖像生成，工具調用延遲低至0.1秒。簡單、高頻或弱網場景下任務全在本地完成，複雜推理則交由雲端處理，實現端雲高效協同。

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

商湯發佈並開源“日日新SenseNova-Vision”視覺大模型，核心是將視覺能力原生融入通用基礎模型，打破傳統將檢測、分割等專家模型打包的割裂模式。該模型以單模型在多項評測中實現了四大領域的性能碾壓，標誌着視覺任務向統一原生架構的關鍵升級。

谷歌新款 AI Gemini3 Pro 在用戶信任測試中獲69%好評

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

谷歌新款 AI Gemini3 Pro 在用戶信任測試中獲69%好評

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

​Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”