在大語言模型(LLM)發展的浪潮中,阿里通義 Qwen 團隊近日推出了一種創新的強化學習方法 ——Soft Adaptive Policy Optimization(SAPO)。這一方法的核心目標是解決當前大語言模型在強化學習中面臨的策略優化不穩定性問題。

傳統的強化學習方法,如 GRPO 和 GSPO,採用硬剪切技術來控制重要性比率的範圍,確保更新過程中的穩定性。然而,這種方式有其固有的缺陷。首先,過於嚴格的剪切往往導致有效學習信號的丟失,尤其是在 GSPO 中,一旦某些 token 表現不佳,整個序列的梯度可能會被捨棄。其次,調整剪切範圍非常棘手:若範圍過小,許多樣本可能無法貢獻梯度;若範圍過大,則會引入噪聲,反而損害學習的穩定性。這些問題在大規模混合專家模型(MoE)中尤爲顯著。
針對這些挑戰,Qwen 團隊提出了 SAPO,這是一種新型的強化學習方法,旨在提升大語言模型的學習穩定性和性能。SAPO 採用了一種平滑的、溫度控制的門控函數來替代傳統的硬剪切,從而在保持穩定性的同時,保留更多的有效梯度。其獨特設計包括:
1. 連續信任域 :避免了硬剪切帶來的不連續性問題。
2. 序列級一致性 :確保不丟棄整段序列,保留更多的信息。
3. token 級自適應性 :減弱異常 token 對整體學習的影響。
此外,SAPO 在處理正負 token 時採用非對稱的溫度設計,使其對不同類型的 token 進行差異化處理,這進一步增強了學習的效果。經過實驗證明,SAPO 在多個規模的 dense 和 MoE 模型上均展現出顯著的提升。
爲驗證這一新方法的有效性,Qwen 團隊對其進行了全面評估。在數學推理、代碼生成、邏輯推理和多模態數學推理等任務上,SAPO 的表現明顯優於傳統方法 GRPO 和 GSPO。這一突破不僅標誌着阿里通義在大語言模型領域的技術創新,也爲未來的 AI 研究開闢了新的方向。
論文地址:https://arxiv.org/abs/2511.20347
