大規模モデルの「高知能」を追求する一方で、AIの継続的な実行能力が、その進化レベルを測る新たな次元となっています。人工知能研究機関METRが公開した最新の基準テストによると、Anthropicが開発した最高性能モデルClaude Opus4.5は、非常に長い時間にわたるタスク処理において圧倒的な実力を示しています。

image.png

テスト結果によると、Claude Opus4.5は50%の成功率を維持しながら、約4時間49分

AIbaseは、テストデータにはモデルが理論上20時間を超えて連続して動作できる数値が含まれているものの、METRはそれがサンプル数が少ないため生じた誤差である可能性があると認めています。しかし、この突破はAIが「短期間の指示応答者」から「長期プロジェクトの実行者」へと転換していることを示しています。

しかし、一部の専門家はこのテストの限界について疑問を投げかけています。現在、METRは14のサンプルのみをカバーしており、このベンチマークテストがモデルに特化して「スコアを上げる」ことにつながる可能性があると考える人もいます。しかし、間違いなく言えるのは、Claude Opus4.5