挑戰AI極限！首屆K獎編程大賽揭曉，頂尖模型成績慘淡！

在一個新的人工智能編程挑戰賽中，結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者，令人驚訝的是，獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德拉德（Eduardo Rocha de Andrade）在比賽中僅回答正確了7.5% 的問題。這一成績無疑爲人工智能領域的現狀敲響了警鐘。

K 獎是由 Databricks 和 Perplexity 的聯合創始人安迪・孔溫斯基（Andy Konwinski）發起的，旨在推動 AI 模型在真實編程問題上的表現。孔溫斯基表示:“我們很高興能夠建立一個真正具有挑戰性的基準。” 與目前普遍存在的測試系統相比，K 獎的設計更加嚴格，通過採用 “無污染” 的方式，確保測試模型的能力不受訓練集的影響。

機器人比賽答題數學

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

與其他基準測試如 SWE-Bench 不同，K 獎不允許模型在提交前接觸到特定的問題，而是使用在截止日期之後從 GitHub 提取的新問題。雖然許多 AI 編程工具已經涌現，但這項新挑戰卻顯示出目前模型的侷限性。K 獎的頂尖成績與 SWE-Bench 中75% 的頂尖得分形成了鮮明對比，這讓人們開始懷疑是否存在基準測試的污染問題。

孔溫斯基對未來充滿信心，並承諾如果有開源模型能夠在測試中得分超過90%，他將提供100萬美元的獎勵。他希望這項挑戰能成爲整個行業的警鐘，讓大家認識到目前的 AI 技術仍有很大的提升空間。他補充道:“如果我們連10% 的成績都達不到，那現實就很殘酷了。”

這次比賽引發了行業內對於 AI 評估標準的熱烈討論，許多研究者認爲像 K 獎這樣的項目對於解決 AI 的評估問題至關重要。普林斯頓大學的研究者薩亞什・卡普爾（Sayash Kapoor）表示:“我們需要新的測試來評估現有的基準，如果沒有這樣的實驗，我們無法判斷問題的根源。”

K 獎不僅爲 AI 模型設立了新的挑戰標準，也爲整個行業提供了一個反思的機會，讓人們重新審視當前的人工智能技術和其應用的可行性。

國家安全部發布警示案例，科研人員因違規使用 AI 工具泄密

國家安全部公佈多起涉密信息泄露案例：1）涉密單位人員小田因閒聊泄密被處分；2）科研人員小李違規使用AI工具上傳核心數據導致泄密；3）新入職幹部小蔣在朋友圈炫耀涉密文件被處理。安全部特別提醒：嚴禁在非涉密環境使用AI處理敏感信息，應從正規渠道下載應用軟件，杜絕信息安全隱患。

Sora2浮出水面:OpenAI 欲在生成式AI視頻領域重奪C位

OpenAI正祕密開發Sora視頻生成模型的升級版Sora2，服務器代碼中已出現相關引用。此前發佈的Sora雖熱度下降，但近期被微軟整合進Bing Video Creator重獲關注。與此同時，谷歌Veo3已向大學生免費開放，普通用戶也可通過Google Cloud體驗。兩大科技巨頭在生成式AI視頻領域的競爭日趨白熱化，Sora2的發佈或將重塑行業格局和內容創作方式。

瑞典AI編程獨角獸Lovable狂飆突進！8個月營收破億美元，230萬用戶見證編程革命

瑞典AI編程公司Lovable創下驚人紀錄：成立僅8個月即實現年經常性收入1億美元，成爲歐洲罕見"半人馬"企業。這家專注"氛圍編程"的創新公司以45人團隊服務230萬用戶，人均創收超200萬美元。其AI驅動開發工具已創建1000萬項目，獲Klarna等企業青睞。CEO主動降級150萬美元收入以優化用戶體驗，新推商業版瞄準企業市場。這一案例展現了AI如何重塑軟件開發，也標誌着歐洲科技創新的新高度。

YouTube Shorts將推全新AI特效照片秒變視頻！

YouTube短視頻平臺Shorts推出革命性AI創作工具：1）全新圖片轉視頻功能可將靜態照片6秒內轉化爲動態視頻；2）基於Veo2模型的AI特效可實現塗鴉變藝術品、自拍變奇幻視頻等創意效果；3）下週起在美加澳新率先上線，未來將擴展更多地區；4）所有AI內容將添加SynthID水印確保透明度；5）今夏將推出支持音視頻同步生成的Veo3工具；6）同步推出AI遊樂場功能整合各類創意工具。這些創新將大幅降低創作門檻，推動短視頻進入AI驅動新時代。

谷歌 CEO 稱 “人工智能正積極推動業務的每個部分”

谷歌CEO皮查伊在最新財報中強調AI正推動公司各業務增長，第二季度收入達964億美元（同比+14%）。AI概述和AI模式表現亮眼，全球月活用戶超20億。公司計劃追加100億美元資本支出至850億，加速數據中心建設以應對競爭。同時谷歌面臨反壟斷訴訟風險，並更新了十年未變的"G"標誌。

挑戰AI極限！首屆K獎編程大賽揭曉，頂尖模型成績慘淡！

相關推薦

國家安全部發布警示案例，​科研人員因違規使用 AI 工具泄密

Sora2浮出水面:OpenAI 欲在生成式AI視頻領域重奪C位

瑞典AI編程獨角獸Lovable狂飆突進！8個月營收破億美元，230萬用戶見證編程革命

YouTube Shorts將推全新AI特效 照片秒變視頻！

​谷歌 CEO 稱 “人工智能正積極推動業務的每個部分”

國家安全部發布警示案例，科研人員因違規使用 AI 工具泄密

YouTube Shorts將推全新AI特效照片秒變視頻！

谷歌 CEO 稱 “人工智能正積極推動業務的每個部分”