AI玩《我的世界》大比拼！Claude新版本建築水平驚豔全網

近日，一場別開生面的AI能力評測在《我的世界》平臺上展開，吸引了大量關注。新舊兩個版本的Claude3.5Sonnet在遊戲中展開建築PK，展現出明顯的能力差異，新版本（暫稱"Sonnet3.6"）的表現尤其亮眼。

這項由開發者adi發起的測試被戲稱爲"唯一可靠的評測基準"。評測基準研究者Aidan McLau認爲這個方法恰好滿足了當前AI評測的需求，並指出審美能力與智力水平密切相關。該項目很快獲得了開源社區的支持，相關代碼已在GitHub上線。

測試結果顯示，各大模型都展現出獨特的"個性":

Sonnet3.6在創意性方面略勝一籌，獲得2000多名網友的投票支持

OpenAI的o1-preview雖然構建速度較慢，但在還原真實建築（如泰姬陵）時表現出色

o1-mini則無法完成相關任務

Llama3405B建造了象徵自我的"火坑上的鑽石牆"

阿里的Qwen2.5-14B也展現出不俗實力

值得注意的是，AI在遊戲中的建造過程並不依賴視覺理解或直接控制輸入設備，而是通過文本形式提供上下文並生成操作指令，類似於下盲棋。技術實現上主要依靠:

mineflayer開源庫:將AI生成的指令轉換爲可執行的API調用

mindcraft開源庫:提供通用提示詞和示例，支持各類模型接入遊戲

項目組計劃將這一評測機制進一步完善，打造類似Lmsys競技場的評分系統，採用Elo算法根據人類用戶投票進行排名。據悉，完整測試環境僅需15分鐘即可搭建完成。

這種新穎的評測方式不僅展示了AI的創造力，也爲大模型能力的客觀評估提供了全新視角。正如o1-preview在自由發揮時選擇搭建機器人並拼出"GPT"字樣，AI似乎已經開始在這個虛擬世界中展現自己的"個性"。隨着更多模型加入測試，這個經典遊戲正在成爲見證AI發展的獨特平臺。

視頻教程:

https://x.com/mckaywrigley/status/1849613686098506064

開源代碼:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator

谷歌雲×Replit簽下多年大單：Claude 3.5 Sonnet+Gemini 1.5 Flash雙模型加持，“氛圍編程”正式宣戰Anthropic

谷歌雲與Replit達成戰略合作，將Claude 3.5 Sonnet和Gemini 1.5 Flash集成至Replit Agent，推出“氛圍編程”解決方案，對標亞馬遜支持的Anthropic Claude Code。雙模型分工明確：Claude負責戰略架構與複雜系統設計，Gemini專精快速代碼補全。該方案基於Vertex AI運行，可自動切換模型，爲企業提供一站式編程服務。

99.7%成本差!AI模仿作家風格更受青睞，直指“合理使用”邊界引爆版權訴訟

紐約州立大學和哥倫比亞大學研究發現，AI模型經少量數據微調後，能以著名作家風格生成更受讀者喜愛的作品，甚至超越人類模仿者。這展示了AI在文學模仿上的強大能力，並對美國版權訴訟和“合理使用”辯論產生重要影響。

AI玩《我的世界》大比拼！Claude新版本建築水平驚豔全網

相關推薦

Anthropic祕密提交IPO申請:擬以600億美元估值衝擊二級市場

智譜發佈GLM-5.1:SWE-bench評分全球領跑，模型單價上調10%

谷歌雲×Replit簽下多年大單：Claude 3.5 Sonnet+Gemini 1.5 Flash雙模型加持，“氛圍編程”正式宣戰Anthropic

99.7%成本差!AI模仿作家風格更受青睞，直指“合理使用”邊界引爆版權訴訟

美團發佈Meeseeks評測基準！o3-mini霸榜，DeepSeek-R1意外墊底引發熱議