據報道,阿里通義實驗室的 Qwen Pilot 團隊推出了一項名爲 FIPO 的全新算法。該算法旨在打破傳統強化學習(RL)在處理複雜邏輯時的瓶頸,讓模型在推理長度和準確率上實現雙重飛躍。

核心突破:解決“推理長度停滯”

傳統模型在面對數學等複雜問題時,往往難以區分哪些 Token 是通往正確答案的關鍵。FIPO 算法對此進行了針對性重構:

Future-KL 機制: 引入 Future-KL 策略,專門獎勵那些對後續推理有顯著積極影響的 Token,讓 AI 學會“深謀遠慮”。

符號對數概率差: 引入這一新機制來精準捕捉模型的優化方向,避免推理過程陷入無效的循環。

推理長度跨越: 在零基礎模型上,FIPO 成功將平均推理長度提升至 10,000 Token 以上,徹底解決了推理深度不足的問題。

戰績斐然:32B 模型逆襲 o1-mini

在實測對比中,搭載 FIPO 算法的 32B 規模模型展現出了驚人的“小鋼炮”屬性:

反超競品: 在純強化學習設置下,其推理性能成功反超同規模模型,甚至在部分指標上優於OpenAI 的 o1-mini

數學潛力: 算法在處理高難度數學推理題目時表現尤爲出色,展現了極強的邏輯推導潛力。

行業背景:通義實驗室的“智能進化”

阿里通義實驗室近期在 AI 底層算法上動作頻頻。除了本次驚豔的 FIPO 算法,團隊在 3 月底剛推出了CoPaw 1.0 新版本,顯示出其在提升模型邏輯嚴密性與交互深度方面的持續深耕。

結語:推理效率的“第二曲線”

當行業還在爭論參數規模時,阿里通義通過 FIPO 算法證明了:通過更精細的獎勵機制和邏輯誘導,較小規模的模型同樣能迸發出頂級的“思考力”。