近年、人工知能(AI)技術の急激な発展に伴い、プログラミングツールの使い方も大きく変化しています。かつては、Cursor、Windsurf、GitHubのCopilotなどのコードエディターツールがAI駆動ソフトウェア開発の主流でした。しかし、「自律的なエージェントAI」の台頭と「雰囲気プログラミング(Ambient Programming)」の流行により、AIシステムとソフトウェアとのインタラクションは静かに変化しています。現在では、AIツールがますますシステムのコマンドラインインターフェース(端末)と直接やり取りするようになっています。
端末は、90年代のハッカー映画で広く知られていた黒白の画面であり、現代のコードエディターよりもクールに見えないかもしれませんが、プログラム開発においてはその強力な操作能力が見逃せません。AIはコードを書いたりデバッグしたりするだけでなく、端末ツールはコードを実用的なソフトウェアにする鍵です。
この変化の最も顕著な例は、主要研究機関がコマンドラインでのコーディングツールを発表したことです。今年2月から、Anthropic、DeepMind、OpenAIはそれぞれClaude Code、Gemini CLI、CLI Codexなどのコマンドラインツールをリリースし、会社の人気製品の一つとなっています。
この変化は目に見えにくいものですが、実際にはAIとコンピュータとのインタラクション方法に根本的な転換をもたらしました。多くの専門家は、このトレンドはまだ始まったばかりだと考えています。Terminal-Benchの共同作成者であるMike Merrill氏は、「私たちは将来、95%の大型言語モデル(LLM)がコンピュータとインタラクションする方法が終端のようなインターフェースを通じて行われると信じています」と述べました。
一方で、従来のコードエディターツールも大きな課題に直面しています。AIコードエディターであるWindsurfはいくつかの買収を経験し、企業の未来が不透明になっています。また、新たな研究によると、プログラマーや開発者は従来のツールによる生産性向上を過大評価していることが分かりました。例えば、METRの研究では、開発者がCursor Proを使用することで20〜30%効率が向上すると考えていましたが、実際の観察結果ではタスクの完了速度が約20%遅くなっていることが確認されました。
このような背景の中で、Warpなどの企業が急速に成長し、Terminal-Benchで高いスコアを獲得して、端末ツールのトップクラスとして浮上しています。Warpの創業者であるZach Lloyd氏は、端末に対して強い信頼を持っています。彼は、端末がコードエディターでは解決できない問題を扱う理想的な場所であると考えています。
新しいアプローチの鍵は、どのように性能基準を定義するかにあります。従来のツールは通常、GitHub上のコード問題の解決に焦点を当てますが、端末ツールはより広範な視点から、コードの作成やDevOpsタスクなどあらゆる方面をカバーしています。例えば、Terminal-Benchの一問では、AIが圧縮アルゴリズムの逆エンジニアリングを行うことを求められ、別の質問ではソースコードからLinuxカーネルを構築することを求められます。これはプログラマーが必要とする粘り強い問題解決能力を要求します。
現在の端末ツールはまだ完全に潜在能力を引き出せていないものの、Lloyd氏はそれらが多くの開発者の非コード作業を処理できていると信じており、これは見どころのある前向きな展望です。