5月28日、NVIDIAの研究チームは、強化学習のトレーニングフレームワークであるPolarを正式にオープンソース化しました。このフレームワークのコア的な革新点は、Codex、Claude Code、Qwen Codeなどの既存の主要なコードエージェントが元のコードを一切変更することなく、GRPO(一般相対的最適化)強化学習トレーニングにスムーズに統合できることです。

image.png

一、業界の課題: エージェントの強化学習の「壁」

コードエージェントが単純なワンステップタスクから複雑なロングフローのタスク(例えば、ワーケルレベルの変更やOSの操作など)へと進化する中で、開発者は成熟した実行フレームワーク(Harness)にますます依存するようになっています。しかし、これらの複雑なフレームワークを従来の強化学習インフラストラクチャに接続することは大きな障壁となっています:

  • 接続コストが高い: 伝統的な方法では、コード論理をenv.init()、env.step()などの標準環境インターフェースに強引に再構築する必要があります。非常に面倒です。

  • 情報の喪失: 再構築の過程で、重要なツール呼び出しの詳細や複数回の対話の文脈、サブエージェントの協調ロジックなどが失われることがあり、モデルが高品質なトレーニング信号を得られなくなることがあります。

image.png

二、核心的な解決策: 「境界」をトレーニングの入口として

Polarは、実行フレームワークを再構築する必要はありません。むしろ「モデルAPIの境界」をトレーニングの起点としています。

  • ブラックボックス処理: Polarは、コード実行フレームワークとモデル推論サーバーの間に透明なゲートウェイを設置します。エージェントがAnthropic、OpenAI、GoogleのAPIインターフェースを使用しているかどうかに関係なく、Polarはすばやくリクエストをキャッチして転送できます。

  • トラジェクトリーの再構築: 転送中に、Polarはプロンプト、サンプリングされたトークン、対数確率などの重要な情報をリアルタイムで記録し、強化学習トレーナーが必要とする「トラジェクトリー」データとして再構築します。

  • 効率的な非同期アーキテクチャ: Rollout Serverはスケジューリングと永続化を担当し、Gateway Nodeはライフサイクルとリソースの回収を処理します。予熱バッファ(READY buffer)と並列タスク処理により、長尾タスクによるGPUのトレーニングのブロックを効果的に解消しています。

三、パフォーマンスの飛躍: コードエージェントの脱胎換骨

実験の結果によると、PolarとGRPOトレーニングを組み合わせることで顕著なパフォーマンス向上が得られました:

  • SWE-Bench Verifiedベンチマークテスト: 同じQwen3.5-4Bベースモデルを使用し、異なるコードフレームワークでの結果は驚くほどです:

    • Codexフレームワーク: pass@1スコアが3.8%から26.4%まで急上昇(増加率は594.74%)。

    • Claude Codeフレームワーク: 29.8%から34.6%に。

    • Piフレームワーク: 34.2%から40.4%に。

  • 極限的な効率: prefix_merging戦略を取り入れることで、従来のper_requestモードと比較して、トレーニングのウォールクロック時間は約5.39倍短縮87.7%

業界の評価

NVIDIAのPolarのオープンソース化は、実質的に「AIエージェント」分野において強化学習トレーニングへの「高速道路」を建設したものです。これは研究者たちが膨大なオープンソースコードフレームワークを使って効率的なトレーニングを行うことを可能にし、システムレベルの最適化を通じてGPU計算力のハードルを下げています。

今後、Polarが普及すれば、開発者は「モデルがトレーニングフレームワークに適合するようにするか」という悩みから解放され、将来のAIコードエージェントの進化の道はより標準化され、効率的になっていくでしょう。これはAIエージェントのトレーニングが、研究室での手動チューニングから、スケーラブルでシステム的なエンジニアリング生産へと進んでいることを示しています。

論文のURL: https://arxiv.org/pdf/2605.24220