在人工智能繪畫領域,擴散模型(Diffusion Model)正經歷從基於Unet架構向基於Transformer架構(DiT)的轉變。然而,DiT生態系統在插件支持、效率以及多條件控制等方面仍面臨挑戰。近日,由Xiaojiu-z領銜的團隊推出了名爲EasyControl的創新框架,旨在爲DiT模型提供高效且靈活的條件控制能力,猶如爲DiT模型裝上了強大的“ControlNet”。

EasyControl的核心優勢
EasyControl並非簡單的模型疊加,而是一套經過精心設計的統一條件DiT框架。其核心優勢在於通過引入輕量級的條件注入LoRA模塊(Condition Injection LoRA module)、位置感知訓練範式(Position-Aware Training Paradigm)以及因果注意力機制(Causal Attention)與KV緩存(KV Cache)技術的結合,實現了顯著的性能提升。這些創新設計使得EasyControl在模型兼容性(即插即用,風格無損控制)、生成靈活性(支持多種分辨率、寬高比和多條件組合)以及推理效率方面都表現出色。
強大的控制能力:不止於Canny和OpenPose
EasyControl最引人注目的特性之一是其強大的多條件控制能力。從其代碼庫中可以看出,EasyControl支持多種控制模型,包括但不限於Canny邊緣檢測、深度信息、HED邊緣草圖、圖像修復(Inpainting)、人體姿態(Pose,可以類比OpenPose)以及語義分割(Seg)。
這意味着用戶可以通過輸入不同的控制信號,精確地引導DiT模型生成符合特定結構、形狀和佈局的圖像。例如,通過Canny控制,用戶可以指定生成物體的輪廓;通過姿態控制,可以引導生成具有特定人物動作的圖像。這種細緻的控制能力極大地拓展了DiT模型的應用場景。
令人驚豔的吉卜力畫風轉換
除了基礎的結構控制,EasyControl還展現了強大的風格遷移能力,尤其是在吉卜力畫風轉換方面。據介紹,研究團隊利用僅100張真實亞洲人臉和GPT-4o生成的吉卜力風格對應圖像進行訓練,開發出專門的LoRA模型。令人驚喜的是,該模型在將人像轉化爲經典吉卜力動畫風格的同時,還能很好地保留原始面部特徵。用戶可以通過上傳人像照片,並配合相應的提示詞,輕鬆生成具有濃郁手繪動漫風格的藝術作品。項目方還提供了Gradio演示,方便用戶在線體驗這一功能。
EasyControl項目團隊目前已經發布了推理代碼和預訓練權重。根據其Todo List,未來還將推出空間預訓練權重、主體預訓練權重以及訓練代碼,這將進一步完善EasyControl的功能,併爲研究人員和開發者提供更全面的工具。
EasyControl的出現無疑爲基於Transformer的擴散模型注入了強大的控制能力,有效地彌補了DiT模型在條件控制方面的不足。其對多種控制模式的支持,以及令人印象深刻的吉卜力畫風轉換能力,都預示着其在AI內容生成領域擁有廣闊的應用前景。憑藉其高效、靈活和易用的特點,EasyControl有望成爲DiT模型生態中一個重要的組成部分。
項目入口:https://top.aibase.com/tool/easycontrol
