相關推薦
32B 推理性能反超 o1-mini!阿里通義發佈 FIPO 算法,讓大模型“想得更深”
阿里通義實驗室推出FIPO算法,突破傳統強化學習在複雜邏輯推理中的瓶頸。該算法通過Future-KL機制,精準識別關鍵推理步驟,有效解決模型在數學等複雜問題中推理長度停滯的問題,顯著提升推理準確率和效率。
Apr 8, 2026
198.5k
阿里通義實驗室發佈FIPO算法,32B模型推理性能反超o1-mini
阿里通義實驗室發佈新型算法FIPO,通過引入“Future-KL”機制,有效解決純強化學習在長文本推理中的“推理長度停滯”問題,提升複雜邏輯對齊訓練效果。
Apr 8, 2026
150.8k
百萬級智能體“大練兵”!MiniMax 聯手騰訊雲:RL 沙箱實現全量平穩運行
MiniMax與騰訊雲合作,成功部署了具備百萬級吞吐、十萬級併發能力的Agent強化學習沙箱,並在測試環境中實現全量平穩運行。這標誌着AI智能體底層基建能力取得重要突破,爲其大規模應用提供了關鍵支撐。
Mar 18, 2026
172.3k
世界模型邁入精細調優時代:騰訊開源強化學習後訓練框架 WorldCompass
騰訊混元3D團隊開源了強化學習後訓練框架WorldCompass,旨在提升世界模型在交互中的準確性和用戶體驗。該框架針對當前世界模型在處理複雜指令時易出現偏差的問題,通過強化學習優化模型表現。
Mar 11, 2026
164.8k
OpenClaw能“邊用邊訓”了:智能體強化學習訓練框架AReaL v1.0穩定版發佈
螞蟻集團與清華大學聯合發佈開源強化學習訓練框架AReaL v1.0穩定版,主打“Agent一鍵接入RL訓練”,無需修改代碼即可兼容各類智能體框架,實現開箱即用。該版本旨在解決當前智能體框架接入訓練成本高、接口各異等瓶頸,推動強化學習訓練更便捷高效。
Mar 4, 2026
433.8k
