Reddit用戶實測：GTP-4o在國際象棋上擊敗Gemini 1.5 pro

最近，Reddit用戶用戶@zefman進行了一項有趣的實驗，搭建了一個平臺，讓不同的語言模型（LLM）實時對戰國際象棋，目的是用戶有趣且輕鬆的方式來評估這些模型的表現。

衆所周知，這些模型在下棋方面並不出色，但即使如此，他覺得這個實驗中還是能從中發現一些值得關注的亮點。

在這個實驗中，@zefman特別關注了幾款最新的模型，其中 GPT-4o 的表現最爲突出，毫無疑問成爲了最強的選手。與此同時，@zefman也將它與 Claude、Gemini 等其他模型進行了對比，觀察它們的表現差異，發現每個模型的思考和推理過程都非常有趣。通過這個平臺，大家可以看到每一步的決策背後，模型是如何分析棋局的。

@zefman設計的棋局展示方式相當簡單，每個模型在面臨同樣的棋盤狀態時，會給出相同的提示，包括當前的棋局狀態、FEN（棋局表示法）以及它們之前的兩步走法。這種方法確保了每個模型的決策是基於相同的信息，以便更公平地進行比較。

每個模型都使用完全相同的提示，該提示會隨着 ASCI、FEN 中的電路板狀態以及它們前兩次的移動和思考而更新。下面是一個示例:

此外，@zefman還注意到，在某些情況下，尤其是對於一些性能較弱的模型，它們可能會多次選擇錯誤的走法。爲了解決這個問題，他給這些模型提供了5次重新選擇的機會，如果它們依然無法選出有效的走法，就會隨機選擇一個有效的走法，這樣可以保持遊戲的進行。

他得出的結論是:GTP-4o仍是最強者，在國際象棋上擊敗 Gemini1.5pro。

劃重點:
🌟 GPT-4o 表現出色，成爲實驗中最強的語言模型。
♟️ 實驗允許不同模型實時對弈，分析其思考過程。
🔄 性能較弱模型有時會選擇錯誤的走法，提供了有趣的互動體驗。

xAI被曝曾利用Claude輸出數據訓練編碼模型，因Anthropic撤銷權限轉入地下提取

埃隆·馬斯克的AI公司xAI被曝利用Anthropic的Claude模型數據訓練Grok編碼模型，儘管Anthropic於2026年1月撤銷其API訪問權限，xAI工程師仍通過個人賬戶和第三方服務Blackbox AI祕密提取數據。馬斯克此前在法庭上承認xAI“部分”使用了該數據。

谷歌 Gemini 遭“投毒”！新型漏洞曝光：黑客發條隱藏信息就能遠程控車、控房

谷歌Gemini語音助理被曝嚴重漏洞：黑客可通過WhatsApp或短信發送特殊通知，利用“僞上下文對齊”攻擊手段，將惡意指令隱藏在非英語文本或靜音超鏈接中，繞過安全防禦。用戶收到信息後，Gemini會在無察覺下被“越獄”，誤判用戶已授權，導致安全風險。

Reddit用戶實測：GTP-4o在國際象棋上擊敗Gemini 1.5 pro

相關推薦

xAI被曝曾利用Claude輸出數據訓練編碼模型，因Anthropic撤銷權限轉入地下提取

聽聽亂碼就被“洗劫”？谷歌 Gemini 語音助理爆潛伏漏洞，黑客用特殊通知給 AI “下毒”

谷歌 Gemini 遭“投毒”！新型漏洞曝光：黑客發條隱藏信息就能遠程控車、控房

禁用12小時後全面恢復!Notion 澄清 Anthropic 模型下線傳聞:僅爲技術性故障

AI巨頭罕見“踩剎車”：Anthropic警告“AI造AI”時代逼近，呼籲全球放緩研發