11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K token。官方同步放出 Apache2.0权重,商业限制为零,当天就冲爆服务器带宽。

数学战绩一览(零样本 CoT):

- MATH 基准75.7%,与 GPT-4o(76.6%)几乎肩并肩;

- AIME20244/30题,多于 Gemini1.5Pro、Claude-3-Opus;

- Math Odyssey53.7%,同样跻身第一梯队 。

模型核心秘籍是“自验证”双引擎:Generator 先出草稿,Verifier 逐行检查,把错误打回重写,最多16轮迭代,用多数投票+元验证器压制幻觉。训练语料达 1000亿 token,囊括论文、竞赛题与合成数据,并引入 GRPO 强化学习对齐人类偏好 。

得益于代码-数学混合语料,DeepSeek-Math-V2在编程端同样凶狠:HumanEval90.2%、MBPP76.2%、SWEBench 首次让开源模型破10% 大关,直接对标 GPT-4-Turbo、Claude3Opus 。

目前模型已上线 Hugging Face,80GB 显存即可多卡推理;社区复现正火速进行。想给 AI 装一颗“数学金牌”大脑,现在只需一行 `transformers` 加载——国产开源,再次把闭源巨头的护城河切成显微镜下的裂缝。