Cursor 實測：在長程自動化編程任務中，GPT-5.2 表現優於 Claude Opus 4.5

知名 AI 編程輔助工具Cursor近日分享了一項內部測試發現:在處理超長程、自主性的編程任務時，OpenAI 最新的GPT-5.2模型表現出比 Anthropic 的Claude Opus4.5更高的可靠性。爲了驗證模型能力，Cursor 團隊嘗試從零開始構建一個功能完備的Web 瀏覽器，涵蓋了 HTML 解析、CSS 佈局及自定義 JavaScript 虛擬機等複雜底層架構。

實測結果顯示，GPT-5.2在這種需要數百萬行代碼、耗時數週的“長跑式”任務中，能夠更精準地遵循複雜指令，並保持極高的專注度，有效避免了長程任務中常見的“目標漂移”問題。相比之下，Claude Opus4.5雖然在許多場景表現出色，但在處理此類極大規模工程時，往往更傾向於中途停止或尋找捷徑，提前交出控制權。

目前，Cursor已在其平臺上同步上線了GPT-5.2模型，旨在探索 AI 代理是否能獨立完成通常需要人類團隊花費數月才能完成的大型項目。除了瀏覽器實驗，該模型還成功完成了包括 Windows7模擬器及超百萬行代碼的複雜遷移任務，展現了生成式 AI 在自主工程領域的巨大潛力。

劃重點:

🚀 長程任務優勢: Cursor指出GPT-5.2在長時間、大規模的自主編程任務中，比Claude Opus4.5更能專注目標，不偷懶、不掉鏈子。
🌐 硬核實測案例: 團隊利用 AI 代理從零編寫了 Rust 版本的瀏覽器內核，證明了模型在處理數百萬行代碼時的工程落地能力。
🛠️ 效率大幅提升: 在特定任務中，AI 代理重寫的渲染管線性能提升了25倍，且能自動添加平滑縮放和動態模糊等複雜視覺效果。

AI"按量計費"嚇退企業高管：近三分之一承認不懂經濟賬，算力賬單成了黑箱

畢馬威針對全球20國2145名高管的調查顯示，AI新的按量計費模式正讓企業高管們感到不安。過去依賴固定價格合同、由AI公司補貼算力成本的模式難以爲繼，隨着算力價格持續攀升，整個行業被迫轉向防守，企業低價使用AI的階段正走向終結。

Cursor 實測：在長程自動化編程任務中，GPT-5.2 表現優於 Claude Opus 4.5

相關推薦

OpenAI炮轟AI評測"標杆"： 731 道題近三成有缺陷， 8 個月通過率從23%飆到80%已失靈

AI"按量計費"嚇退企業高管：近三分之一承認不懂經濟賬，算力賬單成了黑箱

一個普通攝像頭就能自主導航：Mistral發佈8B模型Robostral Navigate，性能碾壓多攝像頭方案

全球首部AI女演員主演電影開機：沒有身體沒有童年，卻能調取全人類記憶

AI編碼圈再傳重磅：瑞典新星Lovable估值或將翻倍至 132 億美元

​Cursor 實測：在長程自動化編程任務中，GPT-5.2 表現優於 Claude Opus 4.5

相關推薦

OpenAI炮轟AI評測"標杆"： 731 道題近三成有缺陷， 8 個月通過率從23%飆到80%已失靈

AI"按量計費"嚇退企業高管：近三分之一承認不懂經濟賬，算力賬單成了黑箱

​一個普通攝像頭就能自主導航：Mistral發佈8B模型Robostral Navigate，性能碾壓多攝像頭方案

全球首部AI女演員主演電影開機：沒有身體沒有童年，卻能調取全人類記憶

AI編碼圈再傳重磅：瑞典新星Lovable估值或將翻倍至 132 億美元

Cursor 實測：在長程自動化編程任務中，GPT-5.2 表現優於 Claude Opus 4.5

一個普通攝像頭就能自主導航：Mistral發佈8B模型Robostral Navigate，性能碾壓多攝像頭方案