最近、世界中の50人以上の物理学者が共同で開発した「CritPt」ベンチマークテストが、トップAIモデルが未公開の複雑な物理研究問題を処理する能力を評価することを目的としています。このテストは、初期の博士課程学生が必要とする独立した研究レベルを模倣することを目的としています。現在のAIシステムであるグーグルの「Gemini3Pro」とOpenAIの「GPT-5」には高い期待が寄せられていますが、結果は失望をもたらしました。

ロボット AI執筆 AI教育

図の出典コメント: 画像はAIによって生成され、画像ライセンス提供者Midjourneyから提供されています。

独立した評価において、Gemini3Proは9.1%の正確率で首位に立ち、GPT-5は4.9%の成績でそのあとを追っています。この結果は、最も良いモデルでも大多数のタスクを解決できていないことを示しており、特に複雑な研究課題にかかわる場合に顕著です。CritPtテストは、量子物理学、天体物理学、高エネルギー物理学、生物物理学など11の分野の71の研究課題をカバーしています。モデルが単純な推測やリトリーブを行うことを防ぐために、すべての質問は非公開の研究内容に基づいています。

テストチームはさらに厳しい評価基準である「継続的解決率」を採用し、モデルが5回の試行の中で少なくとも4回正解を出すことを求めました。その結果、すべてのモデルのパフォーマンスが大幅に低下し、複雑な問題に対する推論の脆さが明らかになりました。この不確実性は研究作業フローに課題をもたらし、モデルが見かけ上正しいが実際には微細な誤りを含む答えを生成することがあり、これは研究者を誤導し、検証作業の負担を増加させる可能性があります。

研究チームは、現在の大規模モデルがオープンな物理問題を独立して解決するにはまだ不十分であると指摘し、より現実的な目標はそれらを「研究補佐者」として扱い、特定の作業フローで支援することであると述べています。それに合わせて、OpenAIは2026年9月に研究インターンシステムをリリースし、2028年3月には完全自律的な研究システムをリリースする予定です。同社はGPT-5がすでに研究者に時間を節約していると主張しています。

ポイント:

🌟 現在のトップAIモデルは複雑な物理タスクにおいて満足できる成果を上げていません。最高でも9.1%の正確率にとどまっています。

🔍 「CritPt」ベンチマークテストは複数の物理分野をカバーしており、すべての質問は非公開の研究内容に基づいています。

🤖 今後AIは人間の専門家に代わるのではなく、特定のプロセスを自動化する「研究補佐者」としての役割を果たす可能性が高いです。