騰訊混元文生圖大模型(HunyuanDiT)近日聯合社區發佈了三款新的可控制插件ControlNet,分別爲tile(高清放大)、inpainting(圖像修復與擴充)和lineart(線稿生圖),進一步擴展了其ControlNet矩陣。這些插件的加入,使得混元DiT模型能夠覆蓋更廣泛的應用場景,包括美術、創意、建築、攝影、美妝和電商等80%的案例和場景,爲全球企業和個人開發者、創作者提供了更精準的圖片生成和更大自由度的創作能力。

Tile插件能夠爲畫面擴充信息,實現超清放大,甚至達到4K至8K的清晰度,適合對圖片細節有極致追求的場景。Inpainting插件則能夠根據創作者的需求填充圖片中的塗抹和斑駁部分,實現背景更換、人物主體改變等效果,處理大面積的圖像重繪。Lineart插件則利用不同線條類型創作真人、動漫和建築圖片,適用於建築效果圖生成和手稿上色。

微信截圖_20240815135451.png

此外,騰訊混元DiT此前已發佈canny(邊緣)、depth(深度)、pose(人體姿勢)等條件的ControlNet模型,支持開發者進行推理,並開源了ControlNet的訓練方案,使開發者和創作者能夠訓練自定義的ControlNet模型。

自5月宣佈全面升級並開源以來,混元DiT作爲業內首箇中文原生的DiT架構文生圖開源模型,持續建設開發者生態,發佈了專屬加速庫,提升了推理效率,縮短了生圖時間,並進一步開源了推理代碼。7月,混元DiT升級至1.2版本,開源了小顯存版本,僅需6G顯存即可運行,對個人電腦本地部署的開發者更爲友好。

目前,混元DiT在Github上的Star數已超過3.1k,成爲最受歡迎的國產DiT開源模型。

官網

https://dit.hunyuan.tencent.com/

代碼

https://github.com/Tencent/HunyuanDiT

模型

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

論文

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf