在一個新的人工智能編程挑戰賽中,結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者,令人驚訝的是,獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德拉德(Eduardo Rocha de Andrade)在比賽中僅回答正確了7.5% 的問題。這一成績無疑爲人工智能領域的現狀敲響了警鐘。

K 獎是由 Databricks 和 Perplexity 的聯合創始人安迪・孔溫斯基(Andy Konwinski)發起的,旨在推動 AI 模型在真實編程問題上的表現。孔溫斯基表示:“我們很高興能夠建立一個真正具有挑戰性的基準。” 與目前普遍存在的測試系統相比,K 獎的設計更加嚴格,通過採用 “無污染” 的方式,確保測試模型的能力不受訓練集的影響。

機器人比賽 答題 數學

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

與其他基準測試如 SWE-Bench 不同,K 獎不允許模型在提交前接觸到特定的問題,而是使用在截止日期之後從 GitHub 提取的新問題。雖然許多 AI 編程工具已經涌現,但這項新挑戰卻顯示出目前模型的侷限性。K 獎的頂尖成績與 SWE-Bench 中75% 的頂尖得分形成了鮮明對比,這讓人們開始懷疑是否存在基準測試的污染問題。

孔溫斯基對未來充滿信心,並承諾如果有開源模型能夠在測試中得分超過90%,他將提供100萬美元的獎勵。他希望這項挑戰能成爲整個行業的警鐘,讓大家認識到目前的 AI 技術仍有很大的提升空間。他補充道:“如果我們連10% 的成績都達不到,那現實就很殘酷了。”

這次比賽引發了行業內對於 AI 評估標準的熱烈討論,許多研究者認爲像 K 獎這樣的項目對於解決 AI 的評估問題至關重要。普林斯頓大學的研究者薩亞什・卡普爾(Sayash Kapoor)表示:“我們需要新的測試來評估現有的基準,如果沒有這樣的實驗,我們無法判斷問題的根源。”

K 獎不僅爲 AI 模型設立了新的挑戰標準,也爲整個行業提供了一個反思的機會,讓人們重新審視當前的人工智能技術和其應用的可行性。