OpenAI 最新研究揭示：最先進的 AI 仍難以解決編碼問題

近日，OpenAI 的研究人員在一篇新發布的論文中坦言，儘管目前的 AI 技術已經相當先進，但這些模型依然無法與人類程序員相媲美。OpenAI 首席執行官山姆・阿爾特曼曾表示，預計到今年底，AI 將能夠戰勝 “低級” 軟件工程師，但研究結果卻顯示，這些 AI 模型仍然面臨重大挑戰。

代碼互聯網 (1)

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

在研究中，OpenAI 團隊使用了一種名爲 SWE-Lancer 的新基準測試，評估了從自由職業網站 Upwork 上提取的1400多項軟件工程任務的表現。該測試重點考察了三個大型語言模型（LLM）的編碼能力，包括 OpenAI 的 o1推理模型、旗艦產品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。

這些模型被要求完成兩種類型的任務:一是單個任務，主要集中於修復程序中的錯誤;二是管理任務，要求模型進行更高層次的決策。在測試過程中，這些模型沒有訪問互聯網的權限，意味着它們無法直接查找網上的答案。

儘管這些模型承接的任務總價值高達數十萬美元，但它們只能修復表面性的問題，難以在複雜項目中找到更深層次的錯誤和根本原因。這種情況讓人想起使用 AI 的體驗:AI 雖然能快速生成看似正確的信息，但經常會在更深入的檢驗中暴露出不足。

論文指出，雖然這三款 LLM 在處理任務的速度上遠超人類，但它們往往無法全面理解錯誤的廣泛性和上下文，這導致它們給出的解決方案常常不夠準確或不夠全面。研究人員表示，Claude3.5Sonnet 的表現優於 OpenAI 的兩款模型，獲得的收益也更高，但其回答的準確率仍未達到可信賴的水平。

研究表明，儘管這些先進的 AI 模型在某些特定任務上能夠快速運作，但它們在整體軟件工程能力上仍顯不足，遠未達到可以取代人類程序員的水平。然而，這並未阻止一些企業將人類程序員替換爲尚不成熟的 AI 模型。

劃重點:
🧑‍💻 OpenAI 研究表明，先進 AI 模型在編碼能力上仍落後於人類程序員。
🚫 三款 AI 模型在修復編碼錯誤方面表現不佳，難以解決複雜問題。
🔍 儘管 AI 速度快，但它們缺乏全面理解能力，導致解決方案的準確性不足。

OpenAI 最新研究揭示：最先進的 AI 仍難以解決編碼問題

相關推薦

大模型公司造手機搶跑OpenAI:階躍星辰7月13日發首款AI智能體終端

OpenAI發佈GPT-5.6，深綁微軟Copilot365破除“分道揚鑣”傳聞

OpenAI"二號人物"卸任:因神經免疫系統疾病復發，Fidji Simo轉任兼職顧問

OpenAI大整合：聊天、辦公、編程三合一，全新ChatGPT桌面應用上線

OpenAI發佈GPT-5.6模型系列:Sol、Terra、Luna三版本上線，主打網絡安全與高性價比

​OpenAI 最新研究揭示：最先進的 AI 仍難以解決編碼問題

相關推薦

大模型公司造手機搶跑OpenAI:階躍星辰7月13日發首款AI智能體終端

OpenAI發佈GPT-5.6，深綁微軟Copilot365破除“分道揚鑣”傳聞

OpenAI"二號人物"卸任:因神經免疫系統疾病復發，Fidji Simo轉任兼職顧問

OpenAI大整合：聊天、辦公、編程三合一，全新ChatGPT桌面應用上線

OpenAI發佈GPT-5.6模型系列:Sol、Terra、Luna三版本上線，主打網絡安全與高性價比

OpenAI 最新研究揭示：最先進的 AI 仍難以解決編碼問題