微軟研究院開源的rStar2-Agent模型在AI數學推理領域引發關注,這款140億參數的模型通過創新的智能體強化學習技術,在多項數學基準測試中超越了參數量達6710億的DeepSeek-R1模型。

rStar2-Agent的核心創新在於摒棄了傳統的思維鏈方法,轉而採用智能體交互機制。該模型能夠自主規劃推理過程,調用Python代碼執行工具進行驗證,並根據反饋調整推理步驟,避免了傳統CoT方法中常見的錯誤累積問題。

權威的美國數學邀請賽基準測試中,rStar2-Agent表現突出。在AIME24數據集上,其pass@1準確率達到80.6%,超越DeepSeek-R1的79.8%、o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25測試中準確率爲69.8%,HMMT25測試中達到52.7%。

image.png

值得注意的是,rStar2-Agent的響應長度顯著更短。在AIME24測試中平均約9340個token,AIME25約10943個token,僅爲DeepSeek-R1的一半左右,展現出更高的推理效率。

訓練效率方面,該模型僅需一週時間完成510個強化學習步驟,使用64塊MI300X GPU即可訓練完成。其強化學習基礎設施支持每步高達4.5萬個併發工具調用,平均延遲僅0.3秒。

模型引入了GRPO-RoC算法來處理代碼執行中的環境噪聲問題,通過"正確時重採樣"策略保留高質量推理軌跡,提高訓練效果。

在泛化能力方面,rStar2-Agent在GPQA-Diamond科學推理基準上優於DeepSeek-V3,在BFCL v3工具使用任務和IFEval、Arena-Hard等通用測試中也表現良好,顯示出智能體強化學習對通用能力的積極影響。

微軟已將rStar2-Agent的代碼和訓練方法開源,基於VERL框架實現多階段強化學習訓練。這一突破錶明,通過智能的訓練策略,小型模型可以在特定任務上匹敵大型模型的表現,爲資源有限的研究者和開發者提供了新的可能性。

這一成果挑戰了"參數越多性能越好"的傳統觀念,證明了訓練方法和架構創新在AI發展中的重要作用。對於AI行業而言,這可能預示着未來發展將更注重效率和專用性,而非單純追求模型規模。

項目地址:https://github.com/microsoft/rStar