據報道,
核心突破:解決“推理長度停滯”
傳統模型在面對數學等複雜問題時,往往難以區分哪些 Token 是通往正確答案的關鍵。FIPO 算法對此進行了針對性重構:
Future-KL 機制: 引入 Future-KL 策略,專門獎勵那些對後續推理有顯著積極影響的 Token,讓 AI 學會“深謀遠慮”。
符號對數概率差: 引入這一新機制來精準捕捉模型的優化方向,避免推理過程陷入無效的循環。
推理長度跨越: 在零基礎模型上,FIPO 成功將平均推理長度提升至 10,000 Token 以上,徹底解決了推理深度不足的問題。
戰績斐然:32B 模型逆襲 o1-mini
在實測對比中,搭載 FIPO 算法的 32B 規模模型展現出了驚人的“小鋼炮”屬性:
反超競品: 在純強化學習設置下,其推理性能成功反超同規模模型,甚至在部分指標上優於
數學潛力: 算法在處理高難度數學推理題目時表現尤爲出色,展現了極強的邏輯推導潛力。
行業背景:通義實驗室的“智能進化”
結語:推理效率的“第二曲線”
當行業還在爭論參數規模時,
