一位12年級學生建立了一個創新平臺,讓人們能夠評估不同AI模型在Minecraft創作中的表現,爲人工智能評測領域帶來了新的視角。
新基準測試方法應對傳統評估侷限性
隨着傳統AI基準測試方法的侷限性日益明顯,開發者們開始尋找更具創造性的評估途徑。對一羣開發者而言,微軟旗下的沙盒建造遊戲Minecraft成爲了理想選擇。
高中生Adi Singh與團隊合作開發的Minecraft Benchmark(簡稱MC-Bench)網站允許AI模型在面對面的挑戰中相互競爭,通過Minecraft創作來回應各種提示。用戶可以投票選出表現更佳的模型,投票後才能看到每個作品背後的AI製作者。
Singh表示,選擇Minecraft作爲測試平臺是因爲其廣泛的知名度——作爲有史以來最暢銷的電子遊戲,即使對從未玩過的人來說,也能直觀判斷哪個塊狀菠蘿更勝一籌。
"Minecraft讓人們更容易看到AI開發的進展,"Singh告訴TechCrunch。"人們已經習慣了Minecraft,習慣了它的外觀和氛圍。"
項目獲得主要AI公司支持
MC-Bench目前有8名志願者參與。根據網站信息,Anthropic、Google、OpenAI和阿里巴巴已爲該項目提供補貼,允許使用它們的產品運行基準測試,但這些公司與項目沒有其他關聯。
Singh分享了項目的未來願景:"目前,我們只是進行簡單的構建,反思我們與GPT-3時代相比取得的進步,但我們計劃擴展到長期規劃和目標導向任務。遊戲可能只是測試代理推理的媒介,它比現實生活更安全,在測試方面更易於控制,在我看來這更理想。"
除Minecraft外,《精靈寶可夢紅》、《街頭霸王》和《你畫我猜》等遊戲也被用作AI實驗基準,部分原因是AI基準測試本身極具挑戰性。
直觀評估替代複雜指標
研究人員通常在標準化評估中測試AI模型,但這些測試往往讓AI擁有主場優勢。由於訓練方式的特點,模型天生擅長某些類型的問題,尤其是涉及記憶或基本推理的任務。
這種矛盾體現在多個案例中:OpenAI的GPT-4能在LSAT考試中取得88%的成績,卻無法準確數出"strawberry"一詞中有多少個"R";Anthropic的Claude3.7Sonnet在標準化軟件工程基準測試中準確率達62.3%,但在玩Pokémon遊戲方面卻不如大多數五歲兒童。
從技術角度看,MC-Bench是一個編程基準,要求模型編寫代碼來創建指定的構建,如"雪人弗羅斯蒂"或"原始沙灘上迷人的熱帶海灘小屋"。但對大多數用戶而言,評估雪人外觀比深入分析代碼更直觀,這使得該項目具有更廣泛的吸引力,有望收集更多關於模型表現的數據。
雖然這些分數對AI實用性的影響仍有待商榷,但Singh堅信這是一個有力信號:"目前的排行榜與我自己使用這些模型的經驗非常接近,這與許多純文本基準測試不同。也許MC-Bench可以幫助公司瞭解他們是否朝着正確的方向前進。"