大規模言語モデル(LLM)の発展の波において、アリババ・トゥンイーQwenチームは最近、革新的な強化学習方法であるSoft Adaptive Policy Optimization(SAPO)を公開しました。この方法の核心的な目的は、現在の大規模言語モデルが強化学習で直面している戦略最適化の不安定性問題を解決することです。

従来の強化学習方法、例えばGRPOやGSPOでは、重要性比率の範囲を制御するためにハードカット技術を使用し、更新プロセスの安定性を確保しています。しかし、このような方法には固有の欠点があります。まず、過度に厳格なカットは、特にGSPOにおいて、あるトークンが悪い表現をする場合、そのシーケンス全体の勾配が放棄されることがあります。次に、カット範囲の調整は非常に難しく、範囲が小さすぎると多くのサンプルが勾配を寄与できず、範囲が大きすぎるとノイズが導入され、学習の安定性が損なわれます。これらの問題は、大規模な混合エキスパートモデル(MoE)において特に顕著です。
こうした課題に対処するため、QwenチームはSAPOという新しい強化学習方法を提案しました。これは、大規模言語モデルの学習の安定性と性能を向上させるために設計されたものです。SAPOは、従来のハードカットに代えて、滑らかで温度制御されたゲート関数を使用し、安定性を維持しながらより多くの有効な勾配を保持します。その特徴的な設計には以下のものがあります:
1. 連続信頼領域: ハードカットによる不連続性の問題を回避します。
2. シーケンスレベルの一貫性: 整体のシーケンスを捨てることなく、より多くの情報を保持します。
3. トークンレベルの自己適応性: 異常なトークンが全体の学習に与える影響を弱めます。
さらに、SAPOはポジティブおよびネガティブなトークンの処理に非対称な温度設計を採用しており、異なる種類のトークンに対して差別化された処理を行います。これにより、学習効果がさらに向上します。実験結果によると、SAPOはさまざまなサイズのdenseモデルおよびMoEモデルで顕著な改善を示しています。
この新手法の有効性を検証するために、Qwenチームは包括的な評価を実施しました。数学的推論、コード生成、論理的推論、マルチモーダル数学的推論などのタスクにおいて、SAPOのパフォーマンスは従来の方法であるGRPOやGSPOを上回っています。この革新は、アリババ・トゥンイーが大規模言語モデル分野で行う技術革新を示すだけでなく、今後のAI研究の新たな方向を開くことになります。
論文のURL:https://arxiv.org/abs/2511.20347
