近日,騰訊的混元基礎模型團隊發佈了一項突破性的圖像生成新框架 MixGRPO。這一方案不僅將訓練時間縮短了近50%,而且在性能上表現優異,甚至推出了一個名爲 MixGRPO-Flash 的變體,進一步將訓練時間降低了71%。這一切,得益於他們將隨機微分方程(SDE)和常微分方程(ODE)相結合的創新採樣策略。
在當前的圖像生成技術中,效率與質量常常是一對矛盾的存在。MixGRPO 通過引入混合採樣的方法,優化了馬爾可夫決策過程(MDP),使得訓練效率得到了顯著提升。具體而言,該框架通過限制智能體的隨機探索範圍,減少了優化過程中的計算開銷,同時簡化了模型的訓練流程。
與之前的 DanceGRPO 模型相比,MixGRPO 在多個維度上都表現出顯著的改善。研究團隊在實驗證明了,只需對特定的去噪步驟進行優化,就能夠保持甚至提升性能。研究還指出,雖然 MixGRPO 在減少訓練時間的同時降低了計算開銷,但也需要高階求解器的引入,以加速舊策略模型的採樣。
此外,MixGRPO 採用了滑動窗口的策略,讓模型能夠在去噪的過程中逐漸聚焦於更關鍵的時間步,從而實現了更高效的優化。這一創新使得模型在圖像生成的多樣性和質量上都有了不小的進步。
MixGRPO 不僅爲圖像生成技術的未來開闢了新的方向,也爲後續研究提供了寶貴的經驗和借鑑。開源代碼已在文章末尾提供,期待更多開發者加入到這一激動人心的技術探索中來。
項目地址:https://tulvgengenr.github.io/MixGRPO-Project-Page/