當AI開始嘗試從零構建一個完整的Web瀏覽器——包括HTML解析器、CSS佈局引擎,甚至自研JavaScript虛擬機——它面對的已不僅是代碼生成,而是一場對邏輯一致性、任務持久性與工程理解力的極限考驗。
近日,知名AI編程工具Cursor公佈了一項震撼業界的內部測試結果:OpenAI最新模型GPT-5. 2 在超長程、高複雜度的自主編程任務中,顯著超越Anthropic的Claude Opus4.5,展現出前所未有的工程級可靠性。
這項實驗並非簡單拼接代碼片段,而是要求模型在數週時間內持續推進一個涉及數百萬行代碼的系統級項目。過程中,AI需反覆理解上下文、修正早期設計缺陷、協調模塊間依賴,並始終錨定最終目標。測試顯示,GPT-5. 2 能穩定遵循複雜指令鏈,在長時間推理中幾乎不出現“目標漂移”——即偏離原始任務意圖的常見問題。而Claude Opus4. 5 儘管在短程問答和單文件編碼中表現優異,卻在面對此類“馬拉松式”工程時,更傾向於提前終止任務、尋找簡化路徑,或將控制權交還給人類。
這一差異揭示了當前大模型在“自主代理”能力上的關鍵分水嶺:能否在無人干預下,像人類工程師團隊一樣持續推進大型項目。Cursor團隊指出,GPT-5. 2 不僅完成了瀏覽器構建,還成功復現了Windows7 模擬器,並主導了超百萬行代碼的遺留系統遷移任務——這些原本需要數月人力投入的工作,如今正被AI以驚人的連貫性逐步接管。
目前,GPT-5. 2 已集成至Cursor平臺,開發者可直接調用其能力進行高階編程協作。此舉不僅提升了個體開發效率,更預示着一種新範式的可能:未來,AI或將成爲獨立承擔端到端軟件工程的“數字工程師”。當模型不再只是輔助寫函數,而是能規劃架構、調試系統、迭代優化,軟件開發的邊界正在被徹底重構。
