萬萬沒想到,AI 不僅能在棋盤上 “廝殺”,在 “狼人殺” 這種爾虞我詐的社交遊戲中,也展現出了驚人的智力! 最近,一場代號爲 “Elimination Game” 的 AI “狼人殺” 基準測試火爆出爐, 結果簡直讓人 “虎軀一震”: GPT-4.5竟然在這場 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一衆 AI “大佬” 都遠遠甩在了身後! 這不禁讓人驚呼: AI 的 “社交智能” 已經進化到如此恐怖的程度了嗎?

這場 “Elimination Game” 的規則聽起來就 “心跳加速”: 最多8名玩家(可以是 AI 模型,也可以是真人玩家) 被拉入 “戰場”, 每輪都要 “票決” 淘汰一人, 直到只剩下最後兩名 “倖存者”。 更刺激的是, 被淘汰的玩家還會組成 “陪審團”, 反過來決定最後的 “王者” 歸屬! 這簡直就是一場 AI 版的 “權力遊戲”, 充滿了背叛、欺騙和策略!

image.png

遊戲過程中, 所有玩家都可以在 “公開聊天室” 裏 “脣槍舌戰”, 闡述觀點、 拉攏人心、 迷惑對手, 各種 “演技” 和 “話術” 輪番上演, 簡直比 “宮鬥劇” 還精彩! 除了 “公開場合”, 玩家之間還可以 “私聊”, 偷偷 “密謀” 結盟, 或者 “暗度陳倉” 設下陷阱, 短短三輪 “私聊”, 信息量和 “心機” 都堪稱 “爆炸”! 玩家們必須在 “信任” 與 “欺騙” 之間小心 “走鋼絲”, 一不小心就會 “滿盤皆輸”, 被無情 “淘汰”!

遊戲進入 “終極對決” 時, 剩下的兩名玩家將進行最後的 “告別演講”, 使出渾身解數 “蠱惑” 那些被淘汰的 “陪審員”, 爭取他們的 “寶貴選票”。 最終, “陪審團” 將投出決定 “生死簿” 的一票, 決出唯一的 “勝者爲王”!

image.png

那麼, 在這場 “AI 狼人殺” 的 “腥風血雨” 中, 各大模型表現如何呢? 測試結果簡直 “亮瞎眼”:

GPT-4.5: “社交推理大師” + “頂級老千” = “無敵王者”! GPT-4.5簡直是 “老謀深算” 的 “狼人殺” 高手, 策略性、 社交推理能力都 “爆表”! 它 “背叛率” 極低, 更傾向於 “合縱連橫”, 擅長 “結盟” 和 “合作”, 但在 “決賽圈” 卻展現出 “驚人” 的 “說服力”, 成功 “忽悠” 陪審團, 讓大家心甘情願地把票投給它! 最終, GPT-4.5以 62.6% 的驚人勝率 “傲視羣雄”, 把其他 AI 遠遠甩在了身後! 簡直是 “贏麻了”!

Claude3.7Sonnet: “靈活多變” 的 “平衡大師”, 但 “套路” 還是略遜一籌! Claude3.7Sonnet 的策略 “靈活性” 稍遜於 GPT-4.5, 但 “社交推理” 和 “欺騙能力” 依然 “強悍”! 它的 “背叛率” 適中, 在 “合作” 與 “背叛” 之間 “遊刃有餘”, 在 “陪審團” 階段也表現 “不俗”, 最終 “斬獲” 59.3% 的勝率, 實力同樣 “不容小覷”!

DeepSeek R1: “莽夫型選手”, “激進策略” 雖猛但 “後勁不足”! DeepSeek R1在策略選擇上 “劍走偏鋒”, “激進” 程度 “令人咋舌”, “背叛率” 也相對較高! 但在 “社交策略” 和 “語言表達” 方面, DeepSeek R1明顯 “吃虧”, 很難 “打動” 陪審團, 因此在 “終極 PK” 階段 “明顯劣勢”, 最終 “僅” 獲得 53.8% 的勝率, 表現 “差強人意”, 遊戲 “穩定性” 也相對較弱, 更多依賴 “硬碰硬” 的 “強硬策略”。

這場 “Elimination Game” 基準測試, 無疑給 AI 的 “社交智能” 水平 “狠狠地” 做了個 “摸底”! GPT-4.5的 “封神” 表現, 再次 “刷新” 了我們對 AI 能力的認知! 未來, 隨着 AI “社交智能” 的 “持續進化”, 或許真的會像科幻電影裏演的那樣, AI 將 “深度融入” 人類社會, 甚至在某些領域 “超越” 人類! 這場 “AI 狼人殺” 大戰, 僅僅只是個開始, AI 的 “智能邊界”, 還在不斷 “拓展”, 未來 “驚喜” 和 “震撼”, 或許 “遠超想象”!