11月27日、DeepSeekチームはHugging Faceに236Bパラメータの巨大モデル「DeepSeek-Math-V2」をリリースしました。MoEアーキテクチャを採用し、アクティブなパラメータは21Bで、コンテキスト長は一気に128Kトークンに拡張されました。公式にはApache2.0ライセンスの重みが同時に公開され、商業利用に制限はありませんでした。その日のうちにサーバーの帯域を爆発させました。

数学の実績一覧(ゼロショットCoT):

- MATHベンチマークでは75.7%を達成し、GPT-4o(76.6%)とほぼ並ぶレベル;

- AIME2024では4/30問を正解し、Gemini1.5ProやClaude-3-Opusを上回りました;

- Math Odysseyでは53.7%を記録し、同じく第一陣にランクインしています。

モデルの核心的な秘訣は「自己検証」の二つのエンジンです:Generatorが下書きを作成し、Verifierが一行ずつチェックして誤りを指摘し、再び作成しなおす。最大16ラウンドの反復を行い、多数決とメタ検証器によって幻覚を抑圧します。トレーニングデータは1000億トークンに及んでおり、論文、競技問題、合成データを含み、GRPO強化学習を導入し、人間の好みに合わせています。

コードと数学の混合データの恩恵を受け、DeepSeek-Math-V2はプログラミング分野でも非常に強力です:HumanEval90.2%、MBPP76.2%、SWEBenchでは初めてオープンソースモデルが10%の大関門を突破し、GPT-4-TurboやClaude3Opusと直接対等になりました。