知名 AI 編程輔助工具Cursor近日分享了一項內部測試發現:在處理超長程、自主性的編程任務時,OpenAI 最新GPT-5.2模型表現出比 Anthropic 的Claude Opus4.5更高的可靠性。爲了驗證模型能力,Cursor 團隊嘗試從零開始構建一個功能完備的Web 瀏覽器,涵蓋了 HTML 解析、CSS 佈局及自定義 JavaScript 虛擬機等複雜底層架構。

image.png

實測結果顯示,GPT-5.2在這種需要數百萬行代碼、耗時數週的“長跑式”任務中,能夠更精準地遵循複雜指令,並保持極高的專注度,有效避免了長程任務中常見的“目標漂移”問題。相比之下,Claude Opus4.5雖然在許多場景表現出色,但在處理此類極大規模工程時,往往更傾向於中途停止或尋找捷徑,提前交出控制權。

目前,Cursor已在其平臺上同步上線了GPT-5.2模型,旨在探索 AI 代理是否能獨立完成通常需要人類團隊花費數月才能完成的大型項目。除了瀏覽器實驗,該模型還成功完成了包括 Windows7模擬器及超百萬行代碼的複雜遷移任務,展現了生成式 AI 在自主工程領域的巨大潛力。

劃重點:

  • 🚀 長程任務優勢: Cursor指出GPT-5.2在長時間、大規模的自主編程任務中,比Claude Opus4.5更能專注目標,不偷懶、不掉鏈子。

  • 🌐 硬核實測案例: 團隊利用 AI 代理從零編寫了 Rust 版本的瀏覽器內核,證明了模型在處理數百萬行代碼時的工程落地能力。

  • 🛠️ 效率大幅提升: 在特定任務中,AI 代理重寫的渲染管線性能提升了25倍,且能自動添加平滑縮放和動態模糊等複雜視覺效果。