最近,InstantX團隊聯合南京理工大學、北京航空航天大學以及北京大學的研究團隊聯合開發了一種名爲 CSGO 的全新風格遷移模型,旨在提升圖像生成技術,尤其是在內容和風格的結合方面。
CSGO 主要支持3種模式的風格遷移,具體如下:
1、內容圖片+風格參考圖片,合成該內容的風格圖片。如下面的案例,給出需要更換風格的原圖片如“熊、房子”,然後給出風格參考圖片,就能將原圖的風格改變稱參考風格的圖片。
2、風格參考圖片+文字提示,合成文字內容的風格圖片。如下面的案例,給出參考風格圖片,給出文字提示,如“一隻貓、一條狗、一個男人、一隻熊貓”,就能生成對應內容風格圖片。
3)通過文字編輯圖片中的指定對象。
CSGO 模型的核心在於其獨特的數據構建流程,研究團隊精心設計了一個數據生成和自動清洗的管道,構建了一個名爲 IMAGStyle 的大規模風格轉移數據集。這個數據集中包含了21萬個圖像三元組,成爲學術界研究和探索圖像生成技術的重要資源。
該模型的設計理念十分新穎,CSGO 能夠在圖像生成的過程中,明確區分內容和風格特徵。研究者表示,這種模型的優勢在於它的端到端訓練方式,這意味着在推理階段不需要再進行微調。
同時,CSGO 模型的另一大亮點是保留了原始文本到圖像模型的生成能力,沒有對 UNet 進行訓練。通過這些創新,CSGO 實現了圖像驅動的風格轉移、文本驅動的風格合成和文本編輯驅動的風格合成。
在實驗結果方面,CSGO 的表現非常出色,研究者們提供了一系列定量和可視化的對比數據,與現有的最新方法進行了全面的比較,展示了 CSGO 在風格控制能力上的優勢。
劃重點:
🌟 CSGO 模型通過創新的數據構建管道,成功生成了包含21萬個圖像三元組的 IMAGStyle 數據集。
🎨 該模型實現了內容和風格的明確分離,支持多種生成方式,包括圖像驅動和文本驅動的風格轉移。
📊 實驗結果表明,CSGO 在風格控制能力方面優於現有技術,展示了圖像生成的新高度。