阿里通義實驗室智能計算團隊今日正式對外發布了大模型後訓練領域的新型算法——FIPO(Future-KL Influenced Policy Optimization)。該算法通過引入創新的“Future-KL”機制,有效解決了純強化學習(Pure RL)訓練過程中普遍存在的“推理長度停滯”技術瓶頸。
在長文本推理與複雜邏輯對齊的訓練中,傳統強化學習往往難以精準捕捉長序列中的關鍵決策點。通義團隊開發的FIPO算法通過對關鍵Token實施差異化獎勵分配,引導模型在思維鏈(CoT)生成過程中更具前瞻性。
實驗數據顯示,在32B規模模型的純強化學習設定下,搭載FIPO算法的模型性能已率先超越同規模的DeepSeek-Zero-MATH以及OpenAI的o1-mini,標誌着國產大模型在邏輯推理與數學計算能力上取得了實質性進展。
當前,大模型競爭的重心正從預訓練規模轉向推理端的深度對齊。FIPO算法的推出,不僅爲解決邏輯推理模型中“思考過程”的質量評估提供了新思路,也預示着開源社區與國產頭部實驗室在追趕全球頂尖推理模型過程中,正逐步構建起獨立的技術演進路徑。
