正文

DeepMind 開設 AI “線下桌遊局”:Gemini3家族橫掃撲克與狼人殺排行榜

發布於AI新閒資訊

時間 :Feb 4, 2026

閱讀 :1分鐘

谷歌 DeepMind 聯合 Kaggle 近日宣佈對其公開基準測試平臺 Game Arena（遊戲競技場）進行重大升級，正式引入“狼人殺”(Werewolf)與“撲克”(Poker)兩款經典策略遊戲。此舉標誌着 AI 性能評估已從單純的邏輯運算(如國際象棋)向複雜的社交推理與不確定決策跨越。

測評維度:從邏輯思維到社交僞裝

DeepMind 認爲，傳統測試已難以區分頂尖模型的細微差距。新加入的遊戲旨在從不同維度極限測試 AI 的認知能力:

狼人殺: 側重評估模型的溝通技巧、語言說服力以及識破/利用謊言的社交感應能力。
撲克: 模擬真實世界的複雜決策，測試模型在面對不完整信息和風險管理時的博弈能力。
國際象棋: 繼續作爲衡量純粹邏輯思維與長程規劃的基礎指標。

戰力排行:Gemini3家族全面制霸

根據最新公佈的 Elo 排名，谷歌新一代模型 Gemini3Pro 與 Gemini3Flash 展現出統治級實力，在所有棋類與策略遊戲中均位列第一梯隊。令人意外的是，輕量級的 Flash 模型在某些需要快速迭代和即時反饋的博弈場景中表現尤爲出色，而 Pro 模型則在深度規劃上保持領先。

安全研究的雙重價值

除了性能展示，DeepMind 還強調了“狼人殺”基準測試在 AI 安全領域的潛力。該場景模擬了現實中的操縱行爲檢測，讓模型在受控、無實際後果的環境中學習識別惡意引導。谷歌 DeepMind 首席執行官 Demis Hassabis 對此表示，隨着模型能力的指數級增長，行業亟需此類更具挑戰性、更貼近現實動態的“壓力測試”。

目前，Game Arena 已在 Kaggle 平臺開放，開發者可實時觀察全球頂尖模型在這些高壓社交博弈中的表現。