最近,Reddit用戶用戶@zefman進行了一項有趣的實驗,搭建了一個平臺,讓不同的語言模型(LLM)實時對戰國際象棋,目的是用戶有趣且輕鬆的方式來評估這些模型的表現。

image.png

衆所周知,這些模型在下棋方面並不出色,但即使如此,他覺得這個實驗中還是能從中發現一些值得關注的亮點。

在這個實驗中,@zefman特別關注了幾款最新的模型,其中 GPT-4o 的表現最爲突出,毫無疑問成爲了最強的選手。與此同時,@zefman也將它與 Claude、Gemini 等其他模型進行了對比,觀察它們的表現差異,發現每個模型的思考和推理過程都非常有趣。通過這個平臺,大家可以看到每一步的決策背後,模型是如何分析棋局的。

@zefman設計的棋局展示方式相當簡單,每個模型在面臨同樣的棋盤狀態時,會給出相同的提示,包括當前的棋局狀態、FEN(棋局表示法)以及它們之前的兩步走法。這種方法確保了每個模型的決策是基於相同的信息,以便更公平地進行比較。

每個模型都使用完全相同的提示,該提示會隨着 ASCI、FEN 中的電路板狀態以及它們前兩次的移動和思考而更新。下面是一個示例:

image.png

此外,@zefman還注意到,在某些情況下,尤其是對於一些性能較弱的模型,它們可能會多次選擇錯誤的走法。爲了解決這個問題,他給這些模型提供了5次重新選擇的機會,如果它們依然無法選出有效的走法,就會隨機選擇一個有效的走法,這樣可以保持遊戲的進行。

他得出的結論是:GTP-4o仍是最強者, 在國際象棋上擊敗 Gemini1.5pro。

劃重點:

🌟 GPT-4o 表現出色,成爲實驗中最強的語言模型。

♟️ 實驗允許不同模型實時對弈,分析其思考過程。

🔄 性能較弱模型有時會選擇錯誤的走法,提供了有趣的互動體驗。