AIの学者に大打撃！GPT-4oの専門家試験で2.7点しか獲得できず

最近、「ヒューマン・ラスト・エクサム（HLE）」と呼ばれるテストの結果により、AIの真の能力を見直す必要性が生じました。『ネイチャー』誌の報道によると、GPT-4oはこの2500問に及ぶテストで、世界中の専門家が作成した問題に対してわずか2.7点（満点100点）しか得られず、最も優れたAIモデルでも8点にとどまりました。この結果は、AIの強さが実際の実力なのか、それとも一時的な盛り上がりなのか疑問を投げかけます。

従来のAIテストは、実際の能力を反映するには限界があります。その主な理由は2つあります。1つは「ベースラインの飽和」であり、AIシステムが通常のテスト問題を完璧に覚えてしまい、点数の高低が本当の理解力とは関係なくなっていることです。もう1つは「答えの不正行為」で、多くのテストの答えはインターネットで簡単に見つかるため、AIが問題を正しく答えるように見えるのは、検索や記憶に頼っているだけで、本当の論理的推論能力があるわけではないからです。

HLEの設計者たちは、50カ国から集まった約1000人の専門家によって構成され、すべての問題が深い専門知識を必要とするよう設計されました。HLEの問題は数学、物理、化学など複数の分野をカバーしており、厳格な審査プロセスを通じて、AIが簡単に解けないような難易度を確保しています。例えば数学の問題では深く論理的な思考が必要で、化学の問題は複雑な反応メカニズムを含み、単純な検索では答えを得ることはできません。

テスト結果は明確です：GPT-4oはわずか2.7点で、Claude 3.5 SonnetやGemini 1.5 Proもそれぞれ4.1%と4.6%の正解率しか得られませんでした。最も良い成績を収めたo1でも8%にとどまりました。これらのデータは、最新のAIであっても、本格的な専門知識を要する問題に直面したときには依然として無力であることを明確に示しています。

HLEのテストを通じて、AIの実際の能力と従来の基準テストでの高得点との間に明確な対比が見られます。これは、AIが私たちが想像するほど賢いかどうか、あるいは単なる表面的な成功に過ぎないのか、再考を迫るものです。

OpenAI、GPT-4oなどの複数のモデルを停止することを発表。ユーザーが次世代技術に移行

OpenAIはGPT-4oなどの旧バージョンモデルの停止を発表し、これによりそのモデルの歴史的な役割が終了しました。GPT-4oは対話スタイルやマルチモーダル機能で評価されていましたが、会社の注力ポイントは新たなエースモデルに移っており、GPT-5.2がユーザーの第一選択となっています。

GPT-4oの終了：OpenAIが複数の古典的大規模モデルの停止を発表

OpenAIは来月から複数の古いモデルの利用停止を発表しました。その中には有料ユーザーに人気のあるGPT-4oも含まれます。このモデルは2024年5月にリリースされ、親しみやすい会話スタイルでユーザーに好まれました。GPT-5のリリース後、一度は一時的に停止しましたが、CEOが再開すると約束しました。今回の終了は使用率の低下が原因であり、OpenAIはユーザーを更新されたモデルへの移行を促す予定です。

インド版ディープスフィアが登場？アルピエ大規模言語モデルがカスタム技術により順位表を逆転

インドの新鋭AIモデル「Alpie」が注目を集めています。GSM8K数学ランキングとSWソフトウェアエンジニアリングランキングでGPT-4oなどの主要モデルを上回り、320億パラメータで高い効率を実現。インド版「DeepSeek」と称されています。....

プレトレーニングで詰まった：SemiAnalysisがOpenAIが2年半にわたり新しい最前線の大規模モデルを動作させられていなかったと暴露

SemiAnalysisレポートによると、OpenAIは2024年5月のGPT-4o公開以降、大規模事前学習で収束困難や性能低下に直面し、次世代モデルの開発を中断。GPT-5はGPT-4oの最適化版で、アーキテクチャ革新は見られない。一方、GoogleのTPUv7はGemini3などで大規模学習を成功させ、計算クラスターの性能が優れている。....

OpenAI、GPT-4oモデルのAPIアクセスを終了する旨を発表。開発者はできるだけ早く移行を行う必要があります