騰訊混元宣佈開源定製化圖像生成插件 InstantCharacter,並實現了對開源文生圖模型 Flux 的兼容。這一插件的推出,標誌着圖像生成技術在角色一致性和圖像生成精確度上取得了重大突破,爲內容創作者提供了更高效、更靈活的創作工具。

InstantCharacter 的核心優勢在於能夠確保角色在不同場景中的一致性和真實性,同時具備高畫質和精度,以及靈活的文本編輯性。用戶可以通過簡單的提示詞,讓任何角色以想要的姿勢出現在任何地方。例如,只需一張圖片和一句描述,如“一隻兔子在廚房拿着勺子喝湯”,就能生成相應的圖像。這種能力在多輪文生圖場景中尤爲重要,解決了角色一致性這一難題。

微信截圖_20250418113416.png

在技術實現上,InstantCharacter 利用 DiT 模型構建了一個創新的框架,引入了一個可擴展的適配器(adapter),採用多個 transformer encoder,能夠有效處理開放域的角色特徵,並與現代擴散變換器的潛在空間無縫交互。這種設計使得系統能夠靈活適應不同的角色特徵,同時保持高度的一致性。

爲了有效訓練這一框架,騰訊混元團隊構建了一個包含千萬級樣本的大規模角色數據集。數據集被系統地組織爲成對(多視角角色)和非成對(文本 - 圖像組合)子集,使得身份一致性和文本可編輯性能夠通過不同的學習路徑同時優化。這種雙數據結構的設計,進一步提升了模型的泛化能力和圖像質量。

在實際測評中,InstantCharacter 的效果媲美 GPT-4o 等業界領先模型。它能夠處理多種風格和複雜度的圖像,適用於連環畫、影片創作等多種場景。通過 InstantCharacter,內容創作者可以讓生成的角色保持高度一致,更高效地創作出符合需求的視覺作品。

- 項目官網:https://instantcharacter.github.io/

- 代碼:https://github.com/Tencent/InstantCharacter

- Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

- 論文:https://arxiv.org/abs/2504.12395