DeepSeek今日正式發佈 DeepSeek-Math-V2,這款6850億參數的混合專家(MoE)模型成爲全球首個以開源形式達到國際數學奧林匹克(IMO)金牌水平的數學推理大模型。該模型基於 DeepSeek-V3.2實驗版基礎架構開發,以 Apache2.0開源協議完整放出權重,在數學推理能力上實現了質的飛躍。
最引人注目的突破在於其開創性的“生成-驗證”雙模型閉環機制。DeepSeek-Math-V2不再像傳統大模型那樣“一錘定音”,而是配備了一個專門的驗證器(verifier),對生成器輸出的每一步證明進行實時邏輯審查。一旦發現漏洞或“僥倖正確”的病態推理,驗證器立即反饋,生成器隨即自我修正。這種類似人類數學家反覆打磨證明的過程,通過強化學習(RL)被完整內化到模型訓練中,使其具備了真正的“可自我驗證”能力。

在最受關注的2025年國際數學奧林匹克競賽(IMO)中,DeepSeek-Math-V2成功解決6道題中的5道,以83.3% 的正確率獲得金牌,折算分數210分(滿分252),位列全球第三,僅次於美國和韓國代表隊。在2024年中國數學奧林匹克(CMO)中,該模型同樣達到金牌水準。而在北美最具含金量的本科生賽事——2024年普特南數學競賽(Putnam)中,在放開測試時算力的情況下,它取得了118/120的近乎滿分成績,遠超人類歷史最高分90分。
在谷歌 DeepMind 主導的 IMO-ProofBench 正式推理基準上,DeepSeek-Math-V2在基礎難度獲得99% 正確率,在高難度部分取得61.9%,全面超越此前所有公開模型,僅略低於 DeepMind 內部的 Gemini Deep Think 增強版。
與 OpenAI 的 o1系列、DeepMind 的 AlphaProof 等閉源系統不同,DeepSeek-Math-V2從模型權重到完整訓練細節全部開源,任何研究者和開發者都可在 Hugging Face 直接下載,並在本地或雲端自由部署。這意味着全球數學家、計算機科學家可以立即復現、審計甚至改進這一歷史性突破。
DeepSeek 方面表示,該模型的訓練大量借鑑了人類數學專家對“病態證明”的標註,隨後通過動態分配驗證算力(最高並行64條推理路徑、迭代16輪)實現了從人工到自動的平滑過渡。這一設計不僅大幅提升了證明質量,也爲未來在藥物設計、密碼學、形式化驗證等需要極高可信度的場景中部署人工智能奠定了基礎。
目前,模型已在 Hugging Face 和 GitHub 正式上線,支持 Transformers 一鍵加載。DeepSeek 同時公開了其在 IMO、CMO、Putnam 等多項賽事上的完整解題過程與預測結果,接受全球同行檢驗。
地址:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
