大規模モデルの「高知能」を追求する一方で、AIの継続的な実行能力が、その進化レベルを測る新たな次元となっています。人工知能研究機関

テスト結果によると、
AIbaseは、テストデータにはモデルが理論上20時間を超えて連続して動作できる数値が含まれているものの、
しかし、一部の専門家はこのテストの限界について疑問を投げかけています。現在、METRは14のサンプルのみをカバーしており、このベンチマークテストがモデルに特化して「スコアを上げる」ことにつながる可能性があると考える人もいます。しかし、間違いなく言えるのは、
