週四,勞德研究所(Loud Institute)宣佈啓動首批“彈弓(Slingshot)”人工智能資助計劃,旨在“推進人工智能的科學與實踐”。該計劃通過爲研究人員提供傳統學術機構難以匹配的資源——包括資金、計算能力以及產品和工程支持——以加速AI研究與落地創新。作爲回報,受助者需產出可實際轉化的成果,如初創公司、開源項目或其他形式的研究成果。
首批共有 15個項目入選,重點聚焦當前人工智能領域最具挑戰性的議題之一——AI評估體系。其中多個項目已經在業界擁有知名度,如命令行編碼基準測試工具 Terminal Bench,以及長期關注通用人工智能(AGI)能力測評的 ARC-AGI 項目最新版本。

與此同時,多支團隊正嘗試以全新視角解決評估瓶頸。加州理工學院與德克薩斯大學奧斯汀分校合作開發的 Formula Code 項目,旨在評估AI代理在優化現有代碼時的表現;哥倫比亞大學團隊推出的 BizBench,則面向“白領AI代理”構建綜合測試標準,聚焦AI在商業和決策類任務中的真實表現。此外,還有部分項目探索強化學習與模型壓縮的新方法,以建立更具普適性和可擴展性的評估框架。
值得關注的是,SWE-Bench 聯合創始人 John Boda Yang 也加入了本輪計劃,他將領導新項目 CodeClash。該項目受SWE-Bench成功經驗啓發,計劃通過動態、競賽式機制評估AI代碼能力。
Yang在接受TechCrunch採訪時表示:“我認爲持續利用第三方核心基準進行開放評估,是推動整個行業進步的關鍵。但我也擔心,未來的評測體系若被個別公司壟斷,將可能削弱研究的開放性與可比性。”
通過“彈弓”計劃,勞德研究所正試圖在學術與產業之間搭建新的橋樑,使前沿AI研究成果能夠更快地轉化爲實際應用。這一舉措被視爲當前AI領域評估體系重塑的重要一步。
