近日,騰訊混元團隊在官方公衆號發佈了最新研究成果 ——SRPO(語義相對偏好優化),旨在提升 AI 生成圖像的真實感,尤其是解決開源文生圖模型 Flux 在人物皮膚質感方面的 “過油” 問題。這項創新技術的推出,預計將爲生圖領域帶來革命性的改變。
在數字藝術日益普及的今天,AI 生成圖像的質量顯得尤爲重要。Flux 模型作爲開源文生圖社區的熱門基礎模型,常常因其生成的人物皮膚顯得過於光滑和不自然而受到批評。騰訊混元團隊與香港中文大學(深圳)及清華大學的聯合研究,提出了 SRPO 方案,採用在線調整獎勵偏好及優化生成軌跡等多種手段,以提升生成圖像的真實感。

SRPO 的核心在於引入了 “語義偏好” 的概念,通過添加特定控制提示詞(如 “真實感”)來調整獎勵模型的優化目標。實驗結果表明,這種方法在提高生成圖像真實度方面效果顯著。然而,研究人員也意識到單一的語義引導可能導致獎勵破解的問題,因此他們創新性地引入了 “語義相對偏好優化” 策略,利用正向和負向詞彙作爲引導信號,以中和獎勵模型的偏差。

值得注意的是,傳統的生成優化方法往往只關注生成過程的後半段,這容易導致在高頻信息上過擬合的問題。騰訊混元團隊通過 Direct-Align 策略,向輸入圖像注入可控噪聲,並利用這一噪聲作爲參考錨點進行圖像重建,顯著降低了重建誤差,實現了更精準的獎勵信號傳導。這一創新方法支持對生成軌跡的前半段進行優化,有效解決了過擬合的問題。

SRPO 技術的訓練效率極高,僅需10分鐘便能超越現有的 DanceGRPO 方法。研究顯示,SRPO 的真實度和美學評分提升超過三倍,並且訓練時間相較於傳統方法降低了75倍。隨着這一技術的普及,未來 AI 生成圖像的真實感將大大提高,期待它能爲數字藝術創作帶來新的可能性。
項目地址:https://tencent.github.io/srpo-project-page/
