騰訊的混元文生圖大模型(混元DiT)最近進行了升級,發佈了6G顯存版本的模型,使得個人電腦用戶也能輕鬆運行。這個版本與LoRA、ControlNet等插件已經適配至Diffusers庫,並且新增了對Kohya圖形化界面的支持,降低了開發者訓練個性化LoRA模型的門檻。混元DiT模型升級至1.2版本,圖片質感和構圖都有所提高。
同時,騰訊還開源了混元文生圖打標模型“混元Captioner”,這個模型支持中英文雙語,並且針對文生圖場景進行了優化,能更準確地理解中文語義,輸出結構化、完整和準確的圖片描述。它還能識別知名人物和地標,並允許開發者補充個性化背景知識。
此外,混元Captioner模型的開源,使得全球的文生圖研究者和數據標註人員能夠提升圖像描述質量,生成更全面、準確的圖片描述,提升模型效果。生成的數據集不僅可以用於訓練基於混元DiT的模型,也適用於其他視覺模型的訓練。
混元DiT模型的三大更新包括小顯存版本的推出、Kohya訓練界面的接入以及模型升級至1.2版本,這些都進一步降低了使用門檻並提升了圖片質量。混元DiT模型的生成圖片質感更佳,但之前對顯存的高要求讓許多開發者望而卻步。現在,混元DiT推出了小顯存版本,最低僅需6G顯存即可運行,且經過與Hugging Face的合作,小顯存版本和相關插件已經適配到Diffusers庫中,簡化了使用成本。
Kohya是一個開源的輕量化模型微調訓練服務,提供了圖形化界面,廣泛用於擴散模型類文生圖模型的訓練。用戶可以通過Kohya完成模型的全參精調和LoRA訓練,無需編寫代碼。
混元Captioner模型通過構建結構化的圖片描述體系,並通過多種來源提升描述的完整性,注入了大量背景知識,使得輸出的描述更準確、完整。這些優化使得混元DiT成爲最受歡迎的國產DiT開源模型之一,其Github Star數已經超過2.6k。
官網
https://dit.hunyuan.tencent.com/
代碼
https://github.com/Tencent/HunyuanDiT
模型
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf