今日,通義千問團隊正式發佈全新圖像生成模型 Qwen-Image-Layered,該模型以自研創新架構打破傳統 AI 圖片編輯侷限,通過 “圖層拆解” 技術賦予靜態圖片可編輯性,開啓 “指哪改哪” 的精準編輯新時代。

當前 AI 圖片編輯存在兩大痛點:全局編輯易破壞未修改區域一致性,基於掩碼的局部編輯難處理遮擋與模糊邊界。Qwen-Image-Layered 則創新提出 “圖像解耦” 思路,將圖片自動 “剝洋蔥” 式分解爲語義獨立的 RGBA 圖層,每層擁有專屬顏色(RGB)與透明度(Alpha),可獨立操作且不影響其他圖層。

模型核心亮點顯著:全新 RGBA-VAE 技術讓 RGB 圖像與 RGBA 圖層在同一潛空間 “對話”,解決圖層分佈不均、邊界模糊問題;VLD-MMDiT 架構支持3層至10層以上靈活處理,層間通過注意力機制協同,無需低效遞歸拆解;歷經 “生成單圖 - 生成多層 - 拆解任意 RGB 圖像” 多階段進化,實現生成能力到理解能力的轉化。

在應用層面,該模型可完成重新着色、物體替換、文字修改、元素刪除、縮放移動等操作。更值得關注的是,其支持可變數量圖層分解,同一圖像可按需拆分爲3層或8層,且任一圖層能進一步遞歸分解,實現無限層級細化。
目前,Qwen-Image-Layered 的技術報告、代碼倉庫及 Demo 已分別在 arXiv、Github、ModelScope 等平臺上線。通義千問團隊表示,希望通過該模型將圖像重構爲可組合圖層,爲用戶提供直觀、精準且魯棒的圖片編輯能力。
技術報告:
https://arxiv.org/abs/2512.15603
Github:
https://github.com/QwenLM/Qwen-Image-Layered
ModelScope:
https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face:
https://huggingface.co/Qwen/Qwen-Image-Layered
Demo:
https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered
