英偉達研究團隊近日發佈了一個全新的開源 AI 框架 ——Polar。該框架旨在幫助現有的智能體框架(如 Codex、Claude Code、Qwen Code)接入一種名爲廣義相對策略優化(GRPO)的訓練方法,而不影響其原有的工具調用、上下文組織和補丁提交方式。這一創新將大大提升代碼智能體的表現。

image.png

GRPO 是一種針對強化學習的優化技術,它通過獎勵信號來調整模型策略,幫助模型在多步決策任務中學習到更優的行爲。在這項研究中,GRPO 主要用於代碼智能體的訓練,旨在讓模型在實際的工具調用和補丁提交流程中不斷改進表現。

研究表明,智能體的強化學習正在逐步從單步任務轉向更復雜的長流程任務,例如代碼倉庫的、瀏覽器操作以及操作系統的交互。這類任務往往依賴於現有的執行框架,涉及多輪調用、工具使用以及上下文管理等,因此直接將這些框架改寫爲傳統的強化學習環境接口非常困難,可能導致關鍵訓練信號的丟失。

英偉達的 Polar 框架並不試圖重寫智能體框架,而是通過在模型 API 的邊界處放置智能體,保持原有運行邏輯不變。Polar 在執行框架與推理服務器之間了模型智能體,兼容多種請求風格,能夠記錄關鍵數據並將其轉化爲可用於訓練的信息。

從系統架構來看,Polar 包括了任務提交、會話調度和狀態持久化等功能,通過優化初始化、運行和後處理的流程,顯著提升了訓練效率。根據實驗結果,使用 Polar 與 GRPO 訓練的智能體在 SWE-Bench Verified 測試中的性能大幅提升,Codex 的 pass@1 分數從 3.8% 提升至 26.4%,增長幅度達 594.74%。

此外,該框架在提高效率方面也表現出色,訓練時間減少了約 5.39 倍,GPU 的平均利用率也顯著提升,爲未來的智能體訓練提供了更強大的支持。

劃重點:  

🛠️ 英偉達發佈了開源 AI 框架 Polar,助力 Codex 等智能體框架接入新訓練方法。  

📈 Codex 的性能在最新測試中大幅提升,pass@1 分數增長 594.74%。  

⚙️ Polar 優化訓練效率,顯著減少了訓練時間與資源消耗。