OpenAIのGPT-4が従来の数学評価で素晴らしい成果を収める中、北京大学とアリババの研究チームは共同で、新しい評価基準Omni-MATHを発表しました。これは、大型言語モデルの国際数学オリンピックレベルの推論能力を評価することを目的としています。この取り組みは、AIの数学能力評価に新たな基準を提供するだけでなく、AIが高度な数学分野で潜在能力を発揮できる可能性を探る新たな道を切り開きます。

image.png

Omni-MATHの独自設計

Omni-MATH評価ライブラリには、33以上の数学分野を網羅した4428問の競技レベルの数学問題が含まれており、難易度は10段階に分類されています。

主な特徴は以下の通りです。

高い信頼性:すべての問題は様々な数学コンテストやフォーラムから収集され、解答は手動で検証されています。

幅広い網羅性:国際数学オリンピック予備レベル(T4)から、IMO、IMC、プットナムなどのトップレベルの国際数学オリンピック(T0)まで網羅しています。

多様性の考慮:GPT-4や他の評価モデルを用いた評価方法により、解答の多様性を最適化しています。

最新のランキングでは、GPT-4フルバージョンに加え、以下のモデルが優れた成績を収めています。

GPT-4-mini:GPT-4-previewと比較して平均点が約8%向上しています。

Qwen2-MATH-72b:GPT-4-turboを上回る成績を収めています。

これらの結果は、小型モデルでも特定の能力において優れたパフォーマンスを発揮できることを示しています。

評価体系の深さと広さ

Omni-MATHの設計では、国際数学コンテストの選抜プロセスと難易度レベルを十分に考慮しています。

英国や米国などの国際数学オリンピック選抜システムを参照しています。

数論、代数、幾何など、複数の数学分野を網羅しています。

データソースには、様々なコンテストの問題、解答、有名な数学ウェブサイトのフォーラムの内容が含まれています。

革新的な評価方法

研究チームは、微調整されたLlama3-Instructモデルを利用したOmni-Judgeオープンソース解答検証ツールを開発しました。これにより、モデルの出力と標準解答の一致性を迅速に判断できます。この方法は、95%の一致率を確保しながら、複雑な数学問題の評価にも便利なソリューションを提供します。

Omni-MATHの発表は、AIの数学能力に対する新たな挑戦であると同時に、将来AIが高度な数学分野で応用・発展していくための重要な評価ツールとなります。AI技術の進歩に伴い、近い将来、AIが国際数学オリンピックで驚くべき成果を収めるのを目撃できるかもしれません。

プロジェクトアドレス:https://github.com/KbsdJames/Omni-MATH/