DeepSeekは今日、DeepSeek-Math-V2を正式にリリースしました。この6850億パラメータの混合エキスパート(MoE)モデルは、国際数学オリンピック(IMO)金メダルレベルに達した世界初のオープンソースの数学推論大規模モデルです。このモデルは、DeepSeek-V3.2ベータバージョンのベースアーキテクチャをもとに開発され、Apache 2.0オープンソースライセンスで重みが完全に公開されており、数学的推論能力において質的な飛躍を遂げました。

注目すべき点は、独自の「生成-検証」二段階閉ループメカニズムです。DeepSeek-Math-V2は従来の大規模モデルのように「一発で答えを出す」のではなく、生成された証明の各ステップに対してリアルタイムで論理的審査を行う専用の検証者(verifier)を備えています。証明中に欠陥や「偶然正しい」ような異常な推論が見つかると、検証者が即座にフィードバックし、生成者が自己修正を行います。このように人間の数学者が証明を繰り返し磨き上げるプロセスは、強化学習(RL)によってモデルトレーニングに完全に組み込まれており、真の「自己検証可能な」能力を備えています。

DeepSeek

最も注目を集めた2025年の国際数学オリンピック(IMO)では、DeepSeek-Math-V2は6問中5問を解き、83.3%の正答率で金メダルを獲得し、満点252点中210点を取得して世界第3位となりました。アメリカと韓国の代表チームの後に続きました。また、2024年の中国数学オリンピック(CMO)でも同様に金メダルレベルに達しました。さらに、北米で最も信頼性が高い大学生向け大会である2024年のプットナム数学コンペティション(Putnam)では、制限なしの計算力でテストを実施した結果、120点中118点を取得し、人類の歴史的最高点90点を大幅に上回りました。

グーグルDeepMindが主導するIMO-ProofBenchの本格的な推論ベンチマークでは、DeepSeek-Math-V2は基本難易度で99%の正答率を達成し、高難易度部分では61.9%を記録し、これまでに公開されたすべてのモデルを上回りました。唯一の例外はDeepMind内部のGemini Deep Think強化版だけです。

OpenAIのo1シリーズやDeepMindのAlphaProofなどの閉鎖システムとは異なり、DeepSeek-Math-V2はモデルの重みから完全なトレーニング詳細まですべてオープンソースで公開されています。研究者や開発者はHugging Faceから直接ダウンロードでき、ローカルまたはクラウド上で自由にデプロイ可能です。これは、世界中の数学者やコンピュータ科学者がすぐにこの画期的な進歩を再現・検証、あるいは改善できるということを意味しています。

DeepSeek側は、このモデルのトレーニングでは多くの人間の数学専門家が「病的な証明」を評価したデータを参考にし、動的に検証の計算力を割り当てること(最大で64の並行推論パス、16ラウンドの反復)により、人間から自動へのスムーズな移行を実現したと説明しています。この設計は、証明の品質を大幅に向上させ、今後薬剤設計、暗号学、形式的検証など非常に高い信頼性が必要な分野でのAIの導入にも基盤を築きました。

現在、このモデルはHugging FaceおよびGitHubで正式にリリースされており、Transformersによるワンクリックロードが可能です。DeepSeekはまた、IMO、CMO、Putnamなどの複数の大会における完全な問題解決プロセスと予測結果を公開しており、世界中の研究者に検証を依頼しています。

アドレス:

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf