文本驅動的風格轉換是圖像合成領域的一項重要任務,旨在將參考圖像的風格與文本提示所描述的內容相融合。 近期,文本到圖像生成模型取得了顯著進展,能夠實現更精細的風格轉換,同時保持內容的高保真度。這項技術在數字繪畫、廣告和遊戲設計等領域具有巨大的實用價值。

image.png

然而,現有的風格轉換技術仍存在一些不足之處,主要挑戰包括:

風格過擬合:現有模型傾向於複製參考圖像的所有元素,導致生成圖像過於貼近參考風格圖像的特徵,限制了生成圖像的審美靈活性和適應性。

文本對齊不準確:模型可能優先考慮參考圖像的主導顏色或圖案,即使這些元素與文本提示中的指令相矛盾。

生成僞影:風格轉換可能引入不必要的僞影,例如重複出現的圖案(如棋盤格效應),破壞了圖像的整體佈局。

image.png

爲了解決這些問題,研究人員提出了三種互補策略:

基於AdaIN的跨模態融合:利用**自適應實例規範化(AdaIN)**機制,將風格圖像特徵融入文本特徵中,然後再將其與圖像特徵融合。這種自適應融合創建了一個更具凝聚力的引導特徵,使風格特徵與基於文本的指令更加和諧地對齊。AdaIN通過調整內容特徵以反映風格統計信息,有效地將風格融入內容,同時保留內容與文本描述的一致性。

基於風格的無分類器引導(SCFG):開發一種風格引導方法,專注於目標風格並減少不必要的風格特徵。 通過使用佈局控制的生成模型(例如 ControlNet),生成一個缺乏目標風格的“負”圖像。此負圖像的作用類似於擴散模型中的“空”提示,使得引導可以完全專注於目標風格元素。

使用教師模型進行佈局穩定:在生成的早期階段引入教師模型。該教師模型基於原始的文本到圖像模型,與風格模型同時執行帶有相同文本提示的去噪生成,並在每個時間步共享其空間注意力圖。 此方法確保了穩定和一致的空間分佈,有效地減輕了棋盤格僞影等問題。此外,它還實現了同一文本提示在不同風格參考圖像之間保持一致的空間佈局。

研究人員通過大量實驗驗證了這些方法的有效性。結果表明,該方法能夠顯著提高生成圖像的風格轉換質量,並與文本提示保持一致性。更重要的是,該方法可以集成到現有的風格轉換框架中,無需進行微調。

研究人員通過實驗發現,交叉注意力機制中的不穩定會導致僞影的出現。自注意力機制在保持圖像的佈局和空間結構方面起着關鍵作用,該機制通過捕獲高級空間關係來穩定生成過程中的基本佈局。通過選擇性地替換風格化圖像中的某些自注意力圖,可以保留圖像中關鍵特徵的空間關係,確保核心佈局在整個去噪過程中保持一致.

此外,基於風格的無分類器引導(SCFG) 有效地解決了風格歧義的問題,它可以選擇性地強調所需的風格元素,同時過濾掉不相關的或衝突的特徵。該方法通過使用佈局控制模型生成負風格圖像,使模型可以專注於傳輸所需的風格組件,從而緩解了過度擬合不相關風格組件的風險。

研究人員還進行了消融實驗,以評估每個組件的影響。結果表明,基於AdaIN的跨模態融合和教師模型都能顯著提高文本對齊的準確性,並且它們具有互補效應。

總而言之,這項研究提出的方法能夠有效緩解現有文本驅動風格轉換技術中存在的風格過擬合和佈局不穩定性問題,從而實現更高質量的圖像生成,併爲文本到圖像的合成任務提供了一個多功能且強大的解決方案。

論文地址:https://arxiv.org/pdf/2412.08503