阿里通義實驗室發佈FIPO算法，32B模型推理性能反超o1-mini

阿里通義實驗室智能計算團隊今日正式對外發布了大模型後訓練領域的新型算法——FIPO（Future-KL Influenced Policy Optimization）。該算法通過引入創新的“Future-KL”機制，有效解決了純強化學習（Pure RL）訓練過程中普遍存在的“推理長度停滯”技術瓶頸。

在長文本推理與複雜邏輯對齊的訓練中，傳統強化學習往往難以精準捕捉長序列中的關鍵決策點。通義團隊開發的FIPO算法通過對關鍵Token實施差異化獎勵分配，引導模型在思維鏈（CoT）生成過程中更具前瞻性。

實驗數據顯示，在32B規模模型的純強化學習設定下，搭載FIPO算法的模型性能已率先超越同規模的DeepSeek-Zero-MATH以及OpenAI的o1-mini，標誌着國產大模型在邏輯推理與數學計算能力上取得了實質性進展。

當前，大模型競爭的重心正從預訓練規模轉向推理端的深度對齊。FIPO算法的推出，不僅爲解決邏輯推理模型中“思考過程”的質量評估提供了新思路，也預示着開源社區與國產頭部實驗室在追趕全球頂尖推理模型過程中，正逐步構建起獨立的技術演進路徑。

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

英偉達開源Polar強化學習訓練框架，核心創新在於使Codex、Claude Code等主流代碼智能體無需修改原生代碼即可接入GRPO訓練。該框架解決代碼智能體從單步任務向複雜長流程任務（如倉庫級修改、OS交互）演進時的行業痛點，打破了智能體強化學習的“圍牆”。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

阿里通義實驗室發佈FIPO算法，32B模型推理性能反超o1-mini

相關推薦

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

阿里通義實驗室發佈語音識別大模型Fun-ASR1.5 30 種語言、方言古詩都能秒轉！

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”

阿里通義實驗室推出 FIPO 算法，助力大模型推理能力大幅提升

阿里通義實驗室發佈FIPO算法，32B模型推理性能反超o1-mini

相關推薦

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

阿里通義實驗室發佈語音識別大模型Fun-ASR1.5 30 種語言、方言古詩都能秒轉！

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”

​阿里通義實驗室推出 FIPO 算法，助力大模型推理能力大幅提升

阿里通義實驗室推出 FIPO 算法，助力大模型推理能力大幅提升