マイクロソフト研究所がオープンソース化したrStar2-Agentモデルは、AIの数学推論分野で注目を集めています。この140億パラメータのモデルは、イノベーティブなエージェント強化学習技術を採用し、多くの数学ベンチマークテストにおいて6710億パラメータのDeepSeek-R1モデルを上回りました。

rStar2-Agentのコア的な革新点は、従来の思考チェーン手法を捨て、エージェント間の相互作用メカニズムを採用した点です。このモデルは自ら推論プロセスを計画し、Pythonコード実行ツールを使用して検証を行い、フィードバックに応じて推論ステップを調整することができ、従来のCoT方法でよく見られる誤りの累積問題を回避します。

権威あるアメリカ数学招待試験のベンチマークテストでは、rStar2-Agentは突出した性能を発揮しました。AIME24データセットでは、pass@1の精度が80.6%となり、DeepSeek-R1の79.8%、o3-miniの79.6%、Claude Opus4.0の77.0%を上回りました。AIME25テストでは69.8%の精度、HMMT25テストでは52.7%の精度を達成しました。

image.png

注目すべきは、rStar2-Agentの応答長が明らかに短いことです。AIME24テストでは平均で約9340トークン、AIME25では約10943トークンであり、DeepSeek-R1の約半分にとどまっています。これは高い推論効率を示しています。

トレーニング効率に関しては、このモデルは510段階の強化学習ステップを1週間で完了でき、64枚のMI300X GPUでトレーニングが可能です。その強化学習インフラストラクチャは、1ステップあたり最大45,000件の並列ツール呼び出しをサポートしており、平均遅延は0.3秒です。

モデルには、コード実行中の環境ノイズ問題を処理するためにGRPO-RoCアルゴリズムが導入されています。この「正しいときに再サンプリング」戦略により、高品質な推論軌跡を保持し、トレーニング効果を向上させます。

汎化能力においても、rStar2-AgentはGPQA-Diamond科学推論ベンチマークでDeepSeek-V3を上回り、BFCL v3ツール使用タスクやIFEval、Arena-Hardなどの一般的なテストでも良好な結果を収めました。これにより、エージェント強化学習が汎用能力に与えるポジティブな影響が示されています。

マイクロソフトはrStar2-Agentのコードとトレーニング方法をオープンソース化しており、VERLフレームワークを基盤として多段階の強化学習トレーニングを実現しています。この突破は、スマートなトレーニング戦略を通じて、小規模モデルが特定のタスクで大規模モデルと同等の性能を発揮できることを示しており、リソースが限られた研究者や開発者にとって新たな可能性を提供しています。