近日,OpenAI 的研究人員在一篇新發布的論文中坦言,儘管目前的 AI 技術已經相當先進,但這些模型依然無法與人類程序員相媲美。OpenAI 首席執行官山姆・阿爾特曼曾表示,預計到今年底,AI 將能夠戰勝 “低級” 軟件工程師,但研究結果卻顯示,這些 AI 模型仍然面臨重大挑戰。

代碼 互聯網  (1)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在研究中,OpenAI 團隊使用了一種名爲 SWE-Lancer 的新基準測試,評估了從自由職業網站 Upwork 上提取的1400多項軟件工程任務的表現。該測試重點考察了三個大型語言模型(LLM)的編碼能力,包括 OpenAI 的 o1推理模型、旗艦產品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。

這些模型被要求完成兩種類型的任務:一是單個任務,主要集中於修復程序中的錯誤;二是管理任務,要求模型進行更高層次的決策。在測試過程中,這些模型沒有訪問互聯網的權限,意味着它們無法直接查找網上的答案。

儘管這些模型承接的任務總價值高達數十萬美元,但它們只能修復表面性的問題,難以在複雜項目中找到更深層次的錯誤和根本原因。這種情況讓人想起使用 AI 的體驗:AI 雖然能快速生成看似正確的信息,但經常會在更深入的檢驗中暴露出不足。

論文指出,雖然這三款 LLM 在處理任務的速度上遠超人類,但它們往往無法全面理解錯誤的廣泛性和上下文,這導致它們給出的解決方案常常不夠準確或不夠全面。研究人員表示,Claude3.5Sonnet 的表現優於 OpenAI 的兩款模型,獲得的收益也更高,但其回答的準確率仍未達到可信賴的水平。

研究表明,儘管這些先進的 AI 模型在某些特定任務上能夠快速運作,但它們在整體軟件工程能力上仍顯不足,遠未達到可以取代人類程序員的水平。然而,這並未阻止一些企業將人類程序員替換爲尚不成熟的 AI 模型。

劃重點:

🧑‍💻 OpenAI 研究表明,先進 AI 模型在編碼能力上仍落後於人類程序員。  

🚫 三款 AI 模型在修復編碼錯誤方面表現不佳,難以解決複雜問題。  

🔍 儘管 AI 速度快,但它們缺乏全面理解能力,導致解決方案的準確性不足。