AIbaseによると、新しく「CritPt」と呼ばれる物理のベンチマークテストの結果、現在最も進んだ人工知能モデルであるGemini3ProやGPT-5でも、真正な自律的な科学者になるには大きな距離があることが示された。このベンチマークテストは、トップクラスのAIモデルを博士課程の初期研究レベルで厳しく評価することを目的としている。

CritPt:AIの実際の研究能力を検証する

「CritPt」は、世界中の30以上の機関に所属する50人以上の物理学者が共同で構築した。その核心的な目的は、教科書知識の記憶を試すものではなく、AIが独自性があり、未発表の研究問題を解決できる能力を持っているかをテストすることである。これは、能力の高い物理学修士課程の学生が独立して行う作業の水準に相当する。

テストの厳密さを確保し、不正行為を防ぐために、CritPtに含まれる71の完全な研究課題はすべて、発表されていない資料に基づいており、量子力学、天体物理学、高エネルギー物理学、生物物理学など11の先端分野をカバーしている。研究チームはこれらの課題をさらに190個の小さな「チェックポイント」に分割し、複雑な問題を解決する過程での段階的な進捗を測定した。

ロボット 人工知能 AI (4)

驚くべき初期結果:トップモデルの正確率は10%未満

テストの初期結果は非常に深刻である。人工知能分析会社(Artificial Analysis)の独立評価によると、現在最も強力なシステムでも、大部分のタスクをこなすことができなかった。

  • グーグルの「Gemini3Pro Preview」の正確率はわずか9.1%だった。(注:このモデルは、第2位よりも10%少ない語彙数を使用していた)。

  • 第2位のOpenAI「GPT-5.1(high)」の正確率はわずか4.9%だった。

研究結果は現時点で、大型言語モデルがオープンな物理的問題に対処する際に必要な厳密性、創造性、正確性を欠いていることを残酷に示している。モデルはより単純で明確な「チェックポイント」のサブタスクでは一定の進歩を見せたが、全体的な研究課題には手も足も出なかった。

中心的な障壁:推論能力の脆弱性

研究チームは、「一貫して解決率」というより厳しい指標を導入し、モデルの安定性をテストした(5回の試行のうち少なくとも4回正解することを要求)。この指標では、モデルのパフォーマンスが全面的に大幅に低下した。

この安定性の欠如は、実際の研究プロセスにおいて重大な課題となる。モデルはしばしば見かけ上合理的な結果を得るが、そこには見過ごせない微細なエラーが隠れており、研究者を誤導し、専門家が大量の時間をかけてレビューを行う必要がある。

将来の展望:科学者から研究補佐へ

CritPtのテスト結果に基づき、研究者は近い将来、「AI科学者」によって人間の専門家を置き換えるのではなく、AIを「研究補佐」として特定の作業プロセスを自動化する手段として利用することが現実的だと考えている。