近年來,隨着人工智能(AI)技術的迅猛發展,編程工具的使用方式也發生了顯著變化。曾幾何時,像 Cursor、Windsurf 和 GitHub 的 C opilot 這樣的代碼編輯工具一直是 AI 驅動軟件開發的主流。然而,隨着 “自主代理 AI” 的崛起和 “氛圍編程” 的流行,AI 系統與軟件的互動方式悄然轉變。現在,AI 工具正越來越多地直接與系統的命令行接口(終端)進行交互。

終端,這個曾被90年代黑客電影廣爲傳播的黑白屏幕,雖然看起來不如現代的代碼編輯器那麼炫酷,但其強大的操作能力在程序開發中卻不容小覷。AI 不僅能夠編寫和調試代碼,終端工具則是將代碼變成可用軟件的關鍵。

Apple-MacBook-Pro-M3-Xcode,,蘋果,電腦,M3芯片,深空灰,編程

這一轉變最明顯的體現是主要實驗室的命令行編碼工具的推出,自今年2月以來,Anthropic、DeepMind 和 OpenAI 相繼發佈了 Claude Code、Gemini CLI 和 CLI Codex 等命令行工具,迅速成爲公司最受歡迎的產品之一。

這一變化雖然不易察覺,但它實際上標誌着 AI 與計算機之間的互動方式發生了根本性的轉變。許多專家認爲,這種趨勢纔剛剛開始。Terminal-Bench 的共同創作者 Mike Merrill 表示,“我們堅信未來95% 的大型語言模型(LLM)與計算機的互動將通過類似終端的接口進行。”

與此同時,傳統的代碼編輯工具也面臨着不小的挑戰。AI 代碼編輯器 Windsurf 經歷了一系列收購,公司的未來變得不確定。而新研究顯示,程序員們對傳統工具的生產力提升估計過高。比如,METR 的一項研究發現,儘管開發者認爲使用 Cursor Pro 能提高20% 至30% 的工作效率,實際觀察結果卻顯示任務的完成速度反而慢了近20%。

在這樣的背景下,Warp 等公司迅速崛起,憑藉其在 Terminal-Bench 中的高分,成爲終端工具的佼佼者。Warp 的創始人 Zach Lloyd 對終端充滿信心,他認爲終端是處理代碼編輯器難以解決問題的理想場所。

新方法的關鍵在於如何定義其性能基準。傳統工具通常關注解決 GitHub 上的代碼問題,而終端工具則從更廣泛的視角出發,涵蓋代碼編寫、DevOps 任務等各個方面。比如,Terminal-Bench 的一道題目要求 AI 逆向工程一個壓縮算法,另一道則要求其從源代碼構建 Linux 內核。這需要程序員所需的頑強解決問題的能力。

雖然現在的終端工具尚未完全解鎖其潛力,但 Lloyd 相信它們已經能夠處理許多開發者的非編碼工作,這無疑是個值得期待的前景。