谷歌 DeepMind 聯合 Kaggle 近日宣佈對其公開基準測試平臺 Game Arena(遊戲競技場)進行重大升級,正式引入“狼人殺”(Werewolf)與“撲克”(Poker)兩款經典策略遊戲。此舉標誌着 AI 性能評估已從單純的邏輯運算(如國際象棋)向複雜的社交推理與不確定決策跨越。

QQ20260204-095537.png

測評維度:從邏輯思維到社交僞裝

DeepMind 認爲,傳統測試已難以區分頂尖模型的細微差距。新加入的遊戲旨在從不同維度極限測試 AI 的認知能力:

  • 狼人殺: 側重評估模型的溝通技巧、語言說服力以及識破/利用謊言的社交感應能力。

  • 撲克: 模擬真實世界的複雜決策,測試模型在面對不完整信息和風險管理時的博弈能力。

  • 國際象棋: 繼續作爲衡量純粹邏輯思維與長程規劃的基礎指標。

戰力排行:Gemini3家族全面制霸

根據最新公佈的 Elo 排名,谷歌新一代模型 Gemini3ProGemini3Flash 展現出統治級實力,在所有棋類與策略遊戲中均位列第一梯隊。令人意外的是,輕量級的 Flash 模型在某些需要快速迭代和即時反饋的博弈場景中表現尤爲出色,而 Pro 模型則在深度規劃上保持領先。

安全研究的雙重價值

除了性能展示,DeepMind 還強調了“狼人殺”基準測試在 AI 安全領域的潛力。該場景模擬了現實中的操縱行爲檢測,讓模型在受控、無實際後果的環境中學習識別惡意引導。谷歌 DeepMind 首席執行官 Demis Hassabis 對此表示,隨着模型能力的指數級增長,行業亟需此類更具挑戰性、更貼近現實動態的“壓力測試”。

目前,Game Arena 已在 Kaggle 平臺開放,開發者可實時觀察全球頂尖模型在這些高壓社交博弈中的表現。