微軟最近在 AI 領域取得了顯著突破,開源了一款名爲 rStar2-Agent 的 AI Agent 推理模型。這款模型採用了創新的智能體強化學習方法,令人驚訝的是,儘管其參數僅有140億,但在 AIME24數學推理測試中,準確率高達80.6%,成功超越了擁有6710億參數的 DeepSeek-R1(79.8%)。這樣的表現讓人們重新思考模型的參數規模與性能之間的關係。

除了數學推理任務的優秀成績,rStar2-Agent 在其他領域的表現同樣引人注目。在 GPQA-Diamond 科學推理基準測試中,該模型的準確率爲60.9%,超越了 DeepSeek-V3的59.1%;在 BFCL v3智能體工具使用任務中,其任務完成率達到60.8%,同樣高於 DeepSeek-V3的57.6%。這些數據表明,rStar2-Agent 在各類任務中展現出了強大的泛化能力。
爲了實現這一突破,微軟在訓練基礎設施、算法和訓練流程上進行了三大創新。首先,在基礎設施方面,微軟構建了一個高效的隔離式代碼執行服務,能夠快速處理大量的訓練請求,支持每訓練步驟高達4.5萬次的併發工具調用,平均延遲僅爲0.3秒。其次,微軟提出了新的 GRPO-RoC 算法,通過有效的獎勵機制和算法優化,使得模型在推理過程中更加準確和高效。最後,rStar2-Agent 設計了 “非推理微調 + 多階段強化學習” 的高效訓練流程,以確保模型在各個階段都能穩步提升能力。
這一系列的技術突破使得 rStar2-Agent 在 AI Agent 領域嶄露頭角,也爲未來的智能體研究和應用開闢了新的方向。
開源地址:https://github.com/microsoft/rStar
劃重點:
🌟 rStar2-Agent 模型僅有140億參數,但在數學推理測試中達到了80.6% 的準確率,超越6710億參數的 DeepSeek-R1。
🔧 微軟在基礎設施、算法和訓練流程方面進行了創新,確保了模型的高效訓練和出色表現。
📊 rStar2-Agent 在科學推理和工具使用任務中表現優異,展現了強大的泛化能力。
