最近、新しいAI評価基準であるFormulaOneが広く注目を集めています。この基準は、超知能と高度なAIシステムを専門とする研究機関AAIによって開発され、GPT-5やGrok4、o3ProなどのトップクラスのAIモデルを対象にテストを行い、その結果は驚きをもたらしました。これらのモデルはテストですべてゼロ点を獲得したのです!
FormulaOne基準には220の新しいグラフ構造の動的計画問題が含まれており、問題の難易度は中級から研究レベルまで三段階に分かれています。トポロジー、幾何学、組み合わせ問題などの複雑な領域が含まれます。問題の表現は簡単のように見えるかもしれませんが、実際には解決に必要な推論と論理的推測の難易度が非常に高く、博士レベルの課題と呼べるでしょう。

この一連の問題は、Courcelleが提唱したアルゴリズムのメタ定理に基づいています。この定理は、各類似木構造のグラフに対して、論理的に定義できる問題は動的計画法により解けることを強調しています。これには、頂点を重なる集合にグループ化し、木構造に並べて配置する「木分解」と呼ばれる構造を使用します。その後、動的計画法を使って順次解決していきます。

浅層の難易度の問題では、これらの先進的なAIモデルのパフォーマンスはそれほど悪くなく、50%〜70%の成功率を達成しており、これらタイプの問題に対してある程度の理解があることが示されています。しかし、深層およびより深層の難易度の問題では状況は楽観的ではありません。深層のテストでは、トップモデルの成功率は大幅に低下し、Grok4やGemini-Proなどのモデルは最大で1%の問題しか解けませんでした。また、GPT-5Proはやや良い結果を出しましたが、4問のみを解けたにとどまりました。最深層の難易度のテストでは、すべてのモデルの成功率はゼロとなり、集団的な崩壊が起きました。
この評価結果は研究界で広範な議論を引き起こし、AIモデルの真の能力について疑問を投げかけました。多くの人々は、人間の博士課程の学生も評価に参加することを提案しています。AI技術が急速に進化する中、私たちは考える必要があります。これらのモデルは、本物の「博士レベル」の推論能力にどれほど近づいているのでしょうか?
モデルのアドレス: https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard
ポイント:
✅ GPT-5などのAIモデルは、新しい評価基準FormulaOneにおいてすべてゼロ点を獲得し、衝撃を与えました。
✅ FormulaOneには220の高難度の動的計画問題が含まれており、AIモデルの推論能力を試しています。
