英偉達推出開源 AI 框架 Polar，Codex 性能提升近 600%

英偉達研究團隊近日發佈了一個全新的開源 AI 框架 ——Polar。該框架旨在幫助現有的智能體框架（如 Codex、Claude Code、Qwen Code）接入一種名爲廣義相對策略優化（GRPO）的訓練方法，而不影響其原有的工具調用、上下文組織和補丁提交方式。這一創新將大大提升代碼智能體的表現。

GRPO 是一種針對強化學習的優化技術，它通過獎勵信號來調整模型策略，幫助模型在多步決策任務中學習到更優的行爲。在這項研究中，GRPO 主要用於代碼智能體的訓練，旨在讓模型在實際的工具調用和補丁提交流程中不斷改進表現。

研究表明，智能體的強化學習正在逐步從單步任務轉向更復雜的長流程任務，例如代碼倉庫的、瀏覽器操作以及操作系統的交互。這類任務往往依賴於現有的執行框架，涉及多輪調用、工具使用以及上下文管理等，因此直接將這些框架改寫爲傳統的強化學習環境接口非常困難，可能導致關鍵訓練信號的丟失。

英偉達的 Polar 框架並不試圖重寫智能體框架，而是通過在模型 API 的邊界處放置智能體，保持原有運行邏輯不變。Polar 在執行框架與推理服務器之間了模型智能體，兼容多種請求風格，能夠記錄關鍵數據並將其轉化爲可用於訓練的信息。

從系統架構來看，Polar 包括了任務提交、會話調度和狀態持久化等功能，通過優化初始化、運行和後處理的流程，顯著提升了訓練效率。根據實驗結果，使用 Polar 與 GRPO 訓練的智能體在 SWE-Bench Verified 測試中的性能大幅提升，Codex 的 pass@1 分數從 3.8% 提升至 26.4%，增長幅度達 594.74%。

此外，該框架在提高效率方面也表現出色，訓練時間減少了約 5.39 倍，GPU 的平均利用率也顯著提升，爲未來的智能體訓練提供了更強大的支持。

劃重點：

🛠️ 英偉達發佈了開源 AI 框架 Polar，助力 Codex 等智能體框架接入新訓練方法。

📈 Codex 的性能在最新測試中大幅提升，pass@1 分數增長 594.74%。

⚙️ Polar 優化訓練效率，顯著減少了訓練時間與資源消耗。

英偉達推出開源 AI 框架 Polar，Codex 性能提升近 600%

相關推薦

簡歷石沉大海?千問把寫簡歷、做PPT、篩髒數據拆成了一套可複製的AI辦公流水線

百度文庫網盤 7 月底升級GenFlow，打造金融行業多端通用Agent平臺

谷歌升級 Gemini Spark AI助手，新增 Workspace 編輯能力並提速50%以上

穆拉蒂重磅迴歸：思維機器實驗室發佈首款多模態開源模型 Inkling

金融大模型這塊蛋糕一年漲了九成，百度智能雲再次穩坐頭把交椅

英偉達推出開源 AI 框架 Polar，Codex 性能提升近 600%

相關推薦

簡歷石沉大海?千問把寫簡歷、做PPT、篩髒數據拆成了一套可複製的AI辦公流水線

百度文庫網盤 7 月底升級GenFlow，打造金融行業多端通用Agent平臺

谷歌升級 Gemini Spark AI助手，新增 Workspace 編輯能力並提速50%以上

穆拉蒂重磅迴歸：思維機器實驗室發佈首款多模態開源模型 Inkling

​金融大模型這塊蛋糕一年漲了九成，百度智能雲再次穩坐頭把交椅

金融大模型這塊蛋糕一年漲了九成，百度智能雲再次穩坐頭把交椅