GPT-5.2が厳格な一般的な知能テストで初めて人間の平均を上回ったことにより、人工知能界は期待と警戒が交錯する転機を迎えた。OpenAIの共同創設者であるグレッグ・ブロクマン氏は最近、GPT-5.2を基盤として構築されたシステム「Poetiq(GPT-5.2X-High)」が最新版のARC-AGI-2ベンチマークテストで75%の正確率を達成したことを発表した。これは人間の平均である60%を大幅に上回る結果であり、大規模モデルが長年指摘されてきた「パフォーマンスの逆説」、つまり標準テストではスキルが爆発的に向上するが、実際の応用では頻繁に失敗するという問題に直接的な挑戦となる。

ARC-AGI-2(人工一般知能の抽象と推論コーパスバージョン2)は、Kerasの創始者であるフランソワ・ショレット氏のチームによって2025年に登場したもので、その設計哲学は非常に純粋である。試験問題の暗記を排除し、本物の推論力を測定することを目的としている。このベンチマークではトレーニングデータは提供されず、各問題はすべて新しく、見たことがない抽象的なタスクとなっており、AIは人間のように少量の例を観察し、ルールを把握し、知識を移すことで推論を行う必要がある。これにより、記憶や統計的近似に依存するモデルはここでは機能しなくなる。これは「真の一般的知能」を検証するためのベンチマークである。
このベンチマークでトップに立ったのは、OpenAIの公式モデルではなく、ポエティックというスタートアップ企業が構築した「メタシステム」である。ポエティックはGPT-5.2を再訓練しておらず、高度なソフトウェアアーキテクチャを通じて、既存の大規模モデルを自動的に調達・組み合わせ、複雑な推論プロセスを導く。その結果は驚きを呼んだ。基礎モデルを変更せずに、システム性能は人間レベルに近い60%から一気に75%に跳躍し、各問題のコストはわずか8ドル以下である。一方、深層思考を特徴とするGemini3Deep Think(プレビュー)は46%にとどまり、コストもさらに高い。

この15ポイントの飛躍は、重要なトレンドを示している。**次のAIの壁は、計算力の積み重ねではなく、システム設計と人間とAIの協働にある**。ちょうどそのタイミングで、OpenAIはXプラットフォームで2026年の戦略予測を発表し、「能力過剰」(Capability Overhang)という概念を明確に打ち出した。現在の大規模モデルは「できることができる」ものが、人々が実際に使うことは遠く及ばない。モデルは博士レベルの専門能力を持っているにもかかわらず、依然として高級な検索エンジンとして使われている。企業はAIを購入しているものの、作業プロセスをいかなるものも再構築していない。
OpenAIはこれにより、焦点をアプリケーション層に移す。2026年には医療、ビジネス、日常シーンにおけるシステムの統合に重点を置き、「AIを使ってもらう方法を教える」ことと、「AIをプロセスに組み込むこと」を強調する。コミュニティでの議論のように、「真の課題はAIが強すぎるのではなく、組織が変化しようとしないことだ」という言葉もある。ポエティックの成功は、優れたシステム工学を通じて既存モデルの潜在力を倍増させることを証明している。
GPT-5.2が人間を超えたことは、終わりではなく、始まりである。それは「パラメータ主義」時代の終わりを告げ、システムの知能、プロセスの再構築、そして人間とAIの共存を核とした新しい競争の始まりを意味する。今後の勝者にとって、最大のモデルを持つ会社ではなく、AIを人類の生活の織り目の一部として編み込むことを最もよく理解している会社になる可能性が高いだろう。
