近日,腾讯的混元基础模型团队发布了一项突破性的图像生成新框架 MixGRPO。这一方案不仅将训练时间缩短了近50%,而且在性能上表现优异,甚至推出了一个名为 MixGRPO-Flash 的变体,进一步将训练时间降低了71%。这一切,得益于他们将随机微分方程(SDE)和常微分方程(ODE)相结合的创新采样策略。

在当前的图像生成技术中,效率与质量常常是一对矛盾的存在。MixGRPO 通过引入混合采样的方法,优化了马尔可夫决策过程(MDP),使得训练效率得到了显著提升。具体而言,该框架通过限制智能体的随机探索范围,减少了优化过程中的计算开销,同时简化了模型的训练流程。

QQ20250804-104805.jpg

与之前的 DanceGRPO 模型相比,MixGRPO 在多个维度上都表现出显著的改善。研究团队在实验证明了,只需对特定的去噪步骤进行优化,就能够保持甚至提升性能。研究还指出,虽然 MixGRPO 在减少训练时间的同时降低了计算开销,但也需要高阶求解器的引入,以加速旧策略模型的采样。

此外,MixGRPO 采用了滑动窗口的策略,让模型能够在去噪的过程中逐渐聚焦于更关键的时间步,从而实现了更高效的优化。这一创新使得模型在图像生成的多样性和质量上都有了不小的进步。

MixGRPO 不仅为图像生成技术的未来开辟了新的方向,也为后续研究提供了宝贵的经验和借鉴。开源代码已在文章末尾提供,期待更多开发者加入到这一激动人心的技术探索中来。

项目地址:https://tulvgengenr.github.io/MixGRPO-Project-Page/