最近、「ヒューマン・ラスト・エクサム(HLE)」と呼ばれるテストの結果により、AIの真の能力を見直す必要性が生じました。『ネイチャー』誌の報道によると、GPT-4oはこの2500問に及ぶテストで、世界中の専門家が作成した問題に対してわずか2.7点(満点100点)しか得られず、最も優れたAIモデルでも8点にとどまりました。この結果は、AIの強さが実際の実力なのか、それとも一時的な盛り上がりなのか疑問を投げかけます。
従来のAIテストは、実際の能力を反映するには限界があります。その主な理由は2つあります。1つは「ベースラインの飽和」であり、AIシステムが通常のテスト問題を完璧に覚えてしまい、点数の高低が本当の理解力とは関係なくなっていることです。もう1つは「答えの不正行為」で、多くのテストの答えはインターネットで簡単に見つかるため、AIが問題を正しく答えるように見えるのは、検索や記憶に頼っているだけで、本当の論理的推論能力があるわけではないからです。
HLEの設計者たちは、50カ国から集まった約1000人の専門家によって構成され、すべての問題が深い専門知識を必要とするよう設計されました。HLEの問題は数学、物理、化学など複数の分野をカバーしており、厳格な審査プロセスを通じて、AIが簡単に解けないような難易度を確保しています。例えば数学の問題では深く論理的な思考が必要で、化学の問題は複雑な反応メカニズムを含み、単純な検索では答えを得ることはできません。
テスト結果は明確です:GPT-4oはわずか2.7点で、Claude 3.5 SonnetやGemini 1.5 Proもそれぞれ4.1%と4.6%の正解率しか得られませんでした。最も良い成績を収めたo1でも8%にとどまりました。これらのデータは、最新のAIであっても、本格的な専門知識を要する問題に直面したときには依然として無力であることを明確に示しています。
HLEのテストを通じて、AIの実際の能力と従来の基準テストでの高得点との間に明確な対比が見られます。これは、AIが私たちが想像するほど賢いかどうか、あるいは単なる表面的な成功に過ぎないのか、再考を迫るものです。
