在人工智能技術飛速發展的今天,如何有效地評估和比較不同生成式AI模型的實力,成爲了一個備受關注的難題。傳統的AI基準測試方法逐漸顯露出其侷限性,爲此,AI開發者們正積極探索更具創新性的評估途徑。

近日,一款名爲“Minecraft Benchmark”(簡稱MC-Bench)的網站橫空出世,其獨特之處在於,它利用微軟旗下的沙盒建造遊戲《我的世界》(Minecraft)作爲平臺,讓用戶通過對比AI模型根據提示所創建的遊戲作品,來評估它們的表現。而令人驚訝的是,這個新穎平臺的創建者,竟然是一位年僅12年級的學生。

QQ_1742528807600.png

“我的世界”變身AI競技場

MC-Bench網站提供了一個直觀有趣的AI模型評測方式。開發者們將不同的提示輸入到參與測試的AI模型中,模型則會生成相應的《我的世界》建築。用戶可以在不清楚哪個作品由哪個AI模型創建的情況下,對這些建築進行投票,選出他們認爲更符合提示、更優秀的那個。只有在投票結束後,用戶才能看到每個建築背後的“創造者”。這種“盲選”機制旨在更客觀地反映AI模型的實際生成能力。

Adi Singh表示,之所以選擇《我的世界》作爲基準測試的平臺,並非僅僅因爲遊戲本身的受歡迎程度——它是史上最暢銷的電子遊戲。更重要的是,這款遊戲的廣泛普及性和人們對其視覺風格的熟悉度,使得即使是沒有玩過這款遊戲的人,也能夠相對容易地判斷出哪個由方塊構成的菠蘿看起來更逼真。他認爲,“《我的世界》讓人們更容易看到[AI發展]的進步”,這種可視化的評估方式比單純的文本指標更具說服力。

功能聚焦

MC-Bench目前主要進行相對簡單的建築任務,例如根據“冰霜之王”或“在原始沙灘上的迷人熱帶小屋”這樣的提示,讓AI模型編寫代碼來創建相應的遊戲結構。這本質上是一個編程基準測試,但其巧妙之處在於,用戶無需深入研究複雜的代碼,僅憑直觀的視覺效果就能判斷作品的優劣,這大大提高了項目的參與度和數據收集潛力。

MC-Bench的設計理念在於讓大衆能夠更直觀地感受到AI技術的發展水平。“目前的排行榜與我個人使用這些模型的體驗非常吻合,這與許多純文本基準測試不同,” Singh說道。他認爲,MC-Bench或許能爲相關公司提供一個有價值的參考,幫助他們判斷自身AI研發的方向是否正確。

儘管MC-Bench由Adi Singh發起,但其背後也聚集了一批志願貢獻者。值得一提的是,包括Anthropic、谷歌、OpenAI和阿里巴巴在內的多家頂尖AI公司,都爲該項目提供了使用其產品的補貼,以運行基準測試。不過,MC-Bench的網站聲明這些公司並非以其他方式與該項目有關聯。

對於MC-Bench的未來,Singh也充滿了展望。他表示,目前進行的簡單建築只是一個起點,未來可能會擴展到更長期的計劃和目標導向的任務。他認爲,遊戲可能成爲測試AI“代理推理”能力的一種安全且可控的媒介,這在現實生活中難以實現,因此在測試方面更具優勢。

開創性的AI評估新思路

除了MC-Bench之外,其他遊戲如《街頭霸王》和《你畫我猜》也曾被用作AI的實驗性基準測試,這反映出AI基準測試本身就是一個極具技巧性的領域。傳統的標準化評估往往存在“主場優勢”,因爲AI模型在訓練過程中已經針對某些特定類型的問題進行了優化,尤其是在需要死記硬背或基本推斷的問題上表現出色。例如,OpenAI的GPT-4在LSAT考試中取得了88%的優秀成績,卻無法分辨單詞“strawberry”中有多少個“R”。

QQ_1742528827128.png

Anthropic的Claude3.7Sonnet在標準化軟件工程基準測試中達到了62.3%的準確率,但在玩《寶可夢》方面的表現卻不如大多數五歲小孩。

MC-Bench的出現,爲評估生成式AI模型的能力提供了一種新穎且更易於理解的視角。通過利用大衆熟知的遊戲平臺,它將複雜的AI技術能力轉化爲直觀的視覺對比,讓更多人能夠參與到AI的評估和認知過程中。雖然這種評估方式的實際價值仍在討論之中,但無疑爲我們提供了一個觀察AI發展的新窗口。

項目入口:https://top.aibase.com/tool/mc-bench