AIがゼロから完全なWebブラウザを構築し始め、HTMLパーサーやCSSレイアウトエンジン、さらには自社製のJavaScript仮想マシンを含めることで、それまでコード生成にとどまらず、論理的一貫性、タスクの持続性、および工学的理解力に対する極限的な試練に直面しています。

最近、有名なAIプログラミングツールであるCursorは、業界を震撼させる内部テスト結果を公表しました。OpenAIの最新モデルであるGPT-5.2は、超長距離かつ高複雑度の自律的プログラミングタスクにおいて、AnthropicのClaude Opus4.5を顕著に上回り、これまでにない工程レベルの信頼性を示しました。

この実験は単なるコードスニペットの結合ではなく、数百万行のコードを含むシステムレベルのプロジェクトを何週間もかけて進行させることを要求します。その過程では、AIは繰り返し文脈を理解し、初期の設計欠陥を修正し、モジュール間の依存関係を調整し、常に最終的な目標を保つ必要があります。テストの結果、GPT-5.2は複雑な指示の連鎖を安定して従い、長時間の推論中に「タスクの逸脱」――つまり、元のタスクの意図から逸れてしまう一般的な問題――がほとんど起こらないことが明らかになりました。一方、Claude Opus4.5は短距離の質疑応答や単一ファイルのコード作成では優れた性能を発揮しますが、このような「マラソン式」の工学プロジェクトでは、タスクを早期に終了したり、簡略化された道を選んだり、または制御権を人間に引き渡す傾向があります。

この違いは、現在の大規模言語モデルにおける「自律的エージェント」能力の重要な分岐点を明らかにしています。つまり、誰も介入しなくても、人間のエンジニアチームのように大型プロジェクトを進めていけるかどうかです。Cursorチームによると、GPT-5.2はブラウザの構築だけでなく、Windows7シミュレーターの再現にも成功し、百万行を超えるコードを含む古きシステムの移行作業を主導しました。これらの作業は以前であれば何カ月もの人手が必要だったものです。それが今や、AIによって驚くほど一貫性を持って取り込まれています。

現在、GPT-5.2はCursorプラットフォームに統合されており、開発者は直接その能力を使用して高度なプログラミング協働を行うことができます。これにより、個人の開発効率が向上するだけでなく、新たなパターンの可能性を示唆しています。将来、AIがエンドツーエンドのソフトウェア開発を独立して担う「デジタルエンジニア」として登場するかもしれません。モデルが単なる関数の書き方を補助するだけでなく、アーキテクチャを計画し、システムをデバッグし、最適化を繰り返すことができれば、ソフトウェア開発の境界は完全に再構築されるでしょう。