32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”

據報道，阿里通義實驗室的 Qwen Pilot 團隊推出了一項名爲 FIPO 的全新算法。該算法旨在打破傳統強化學習（RL）在處理複雜邏輯時的瓶頸，讓模型在推理長度和準確率上實現雙重飛躍。

傳統模型在面對數學等複雜問題時，往往難以區分哪些 Token 是通往正確答案的關鍵。FIPO 算法對此進行了針對性重構：

Future-KL 機制： 引入 Future-KL 策略，專門獎勵那些對後續推理有顯著積極影響的 Token，讓 AI 學會“深謀遠慮”。

符號對數概率差： 引入這一新機制來精準捕捉模型的優化方向，避免推理過程陷入無效的循環。

推理長度跨越： 在零基礎模型上，FIPO 成功將平均推理長度提升至 10，000 Token 以上，徹底解決了推理深度不足的問題。

在實測對比中，搭載 FIPO 算法的 32B 規模模型展現出了驚人的“小鋼炮”屬性：

反超競品： 在純強化學習設置下，其推理性能成功反超同規模模型，甚至在部分指標上優於OpenAI 的 o1-mini。

數學潛力： 算法在處理高難度數學推理題目時表現尤爲出色，展現了極強的邏輯推導潛力。

阿里通義實驗室近期在 AI 底層算法上動作頻頻。除了本次驚豔的 FIPO 算法，團隊在 3 月底剛推出了CoPaw 1.0 新版本，顯示出其在提升模型邏輯嚴密性與交互深度方面的持續深耕。

結語：推理效率的“第二曲線”

當行業還在爭論參數規模時，阿里通義通過 FIPO 算法證明了：通過更精細的獎勵機制和邏輯誘導，較小規模的模型同樣能迸發出頂級的“思考力”。

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

7月2日，開源強化學習基礎設施項目AReaL發佈2.0版，旨在打通基礎模型訓練與智能體應用間的鏈路，爲Agent場景提供強化學習訓練支撐。2.0版面向真實業務，提供持續學習基礎設施，可記錄、整理Agent在任務中的交互過程並接入後續訓練流程，讓智能體在使用中持續進化。

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

英偉達開源Polar強化學習訓練框架，核心創新在於使Codex、Claude Code等主流代碼智能體無需修改原生代碼即可接入GRPO訓練。該框架解決代碼智能體從單步任務向複雜長流程任務（如倉庫級修改、OS交互）演進時的行業痛點，打破了智能體強化學習的“圍牆”。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施