最近、AI数学ベンチマークを開発する非営利団体Epoch AIが、OpenAIからの資金提供をタイムリーに開示しなかったことで論争を呼んでいます。同団体は12月20日、OpenAIがAIの数学能力をテストするためのベンチマークであるFrontierMathプロジェクトに資金を提供したと発表しました。OpenAIはこのベンチマークを利用して、間もなく発売される主力AI製品o3の性能を披露しました。

Epoch AIの請負業者の1人が、LessWrongフォーラムで「Meemi」というニックネームを使って、多くのFrontierMathプロジェクト参加者がOpenAIからの資金提供が公表されるまで知らされていなかったと述べています。「この点に関するコミュニケーションの透明性に欠けていました。私の見解では、Epoch AIはOpenAIからの資金提供を事前に開示すべきであり、請負業者も自分の仕事が能力評価に使用される可能性があることを理解した上で、ベンチマーク開発への参加を決定できるべきです。」と彼は述べています。

ソーシャルメディアでは、この秘密主義的な行動が、FrontierMathの客観的なベンチマークとしての評判を損なう可能性があると懸念する声が上がっています。OpenAIはFrontierMathへの資金提供に加え、ベンチマークの多くの問題と解決策についてもアクセス権を持っており、Epoch AIは12月20日まではこれを開示していませんでした。

スタンフォード大学の数学博士課程の学生であるCarina Hongは、ソーシャルプラットフォームで、OpenAIがEpoch AIとの協力を通じてFrontierMathへの優先アクセス権を得たことで、一部の貢献者が不満を感じていると指摘しています。「FrontierMathベンチマークに大きく貢献した6人の数学者が、OpenAIが独占的にこのベンチマークにアクセスし、他の人がアクセスできないことを知らなかったと確認しました。」Hongは、ほとんどの貢献者がこのことを知った後、もしこの取り決めを事前に知っていたら、プロジェクトに参加しなかっただろうと述べています。

Epoch AIの副所長Tamay Besirogluはこれに対して、組織の透明性に欠けていたことは認めるものの、FrontierMathの完全性は損なわれていないと考えていると述べています。彼は、Epoch AIがコミュニケーションにおいてミスを犯し、貢献者にOpenAIの関与について事前に知らせることができなかったことを認めています。

Besirogluは、OpenAIがFrontierMathにアクセスできるものの、両者間には「口頭合意」があり、OpenAIはベンチマークの問題集をAIのトレーニングに使用しないとしています。Epoch AIはまた、FrontierMathベンチマーク結果の独立した検証を確保するために、「別個の保留セット」を保持しています。

Epoch AIの主任数学者Eillot GlazerはRedditで、Epoch AIはまだOpenAIのFrontierMath o3の結果を独立して検証していないと述べています。彼はOpenAIのスコアは信頼できるものと考えていますが、独立した評価が完了するまでは確認できないとしています。

要点:

💡 OpenAIからの資金提供をタイムリーに開示しなかったことでEpoch AIが批判され、一部の貢献者が不満を感じています。

🔍 FrontierMathベンチマークの完全性が疑問視され、OpenAIがプロジェクトで優先アクセス権を得ています。

🔒 Epoch AIはコミュニケーションミスを認めましたが、OpenAIとの協力は透明性のある評価メカニズムを維持しています。