阿里通義千問團隊正式開源了其最新圖像編輯模型 Qwen-Image-Edit,這是繼 Qwen-Image 之後,通義千問系列在圖像生成與編輯領域的又一重磅力作。作爲一個基於20B 參數多模態擴散變換器(MMDiT)的圖像編輯基礎模型,Qwen-Image-Edit 在精準文本編輯、語義與外觀編輯方面展現出卓越性能,尤其在中文文本渲染上實現了行業領先的表現。

突破性文本編輯:中英文雙語精準渲染

Qwen-Image-Edit 繼承了 Qwen-Image 的核心優勢,在文本渲染能力上進一步升級。無論是英文還是中文,它都能實現高保真的文本編輯,支持直接在圖像中添加、刪除或修改文本,同時保留原有字體、大小和風格。尤其在中文場景下,模型能夠處理多行佈局、段落級文本生成以及書法對聯等複雜排版需求,單字渲染準確率高達97.29%,遠超其他頂級模型如 Seedream3.0(53.48%)和 GPT Image1(68.37%)。

例如,Qwen-Image-Edit 可以輕鬆將海報上的“Hope”替換爲“Qwen”,或在書法作品中修正錯誤字符,同時保持圖像整體的視覺一致性。這種精準的文本編輯能力使其在廣告設計、品牌宣傳和內容創作中具有巨大潛力。

image.png

雙重編碼機制:語義與外觀完美平衡

Qwen-Image-Edit 的核心技術創新在於其雙重編碼機制。在圖像編輯過程中,輸入圖像同時經過 Qwen2.5-VL 模型進行語義編碼,提取高層場景和對象關係特徵;以及變分自編碼器(VAE)進行重建編碼,保留底層視覺細節如紋理和顏色。這種機制確保了模型在執行復雜編輯指令時,既能理解語義意圖,又能保持視覺保真度。

例如,在語義編輯中,Qwen-Image-Edit 可以將圖像中的人物姿態調整爲“彎腰牽狗爪”,同時保持人物身份和背景一致;在外觀編輯中,它能精確添加元素(如帶有真實反射的標牌)或移除細微細節(如頭髮絲),而其他區域保持不變。這種“語義+外觀”的雙重控制使其在 IP 創作、風格遷移和新視角合成等場景中表現尤爲出色。

多任務訓練:編輯一致性行業領先

通過增強的多任務訓練範式,Qwen-Image-Edit 支持文本到圖像(T2I)、圖像到圖像(I2I)以及文本引導圖像編輯(TI2I)等多種任務。模型在 GEdit、ImgEdit 和 GSO 等圖像編輯基準測試中均取得 SOTA 性能,綜合評分分別達到7.56(英文)、7.52(中文),超越 GPT Image1和 FLUX.1Kontext 等競爭對手。

值得一提的是,Qwen-Image-Edit 的“鏈式編輯”能力尤爲突出。例如,在書法糾錯場景中,模型能夠通過多輪迭代逐步修正錯誤字符,同時保持整體風格一致。這種能力大幅提升了創作效率,降低了專業視覺內容創作的門檻。

開源賦能:推動全球AI創作生態

Qwen-Image-Edit 基於 Apache2.0協議完全開源,用戶可通過 Hugging Face、ModelScope 等平臺免費獲取模型權重,或通過 Qwen Chat 的“Image Editing”功能在線體驗。阿里還在 ComfyUI 中提供原生支持,併發布了詳細的技術報告和快速上手指南,助力開發者快速集成。

社交媒體上,開發者對 Qwen-Image-Edit 的發佈反響熱烈,稱其“將中文渲染和圖像編輯能力拉到商用水準”,甚至有用戶表示其效果“媲美甚至超越 GPT-4o 和 FLUX.1”。此外,模型支持多種 LoRA 模型(如 MajicBeauty LoRA),進一步擴展了其在高真實感圖像生成中的應用場景。

應用場景:從創意設計到商業落地

Qwen-Image-Edit 的多功能特性使其適用於多種場景,包括但不限於:

  • 海報與廣告設計:生成具有視覺衝擊力的宣傳海報,支持複雜文本排版和風格遷移。
  • IP 內容創作:基於品牌吉祥物(如 Qwen 的 Capybara)生成 MBTI 主題表情包,保持角色一致性。
  • 教育與培訓:快速生成高質量插圖和圖表,提升課程內容的視覺吸引力。
  • 遊戲與影視:支持角色設計、背景生成和新視角合成,優化資產開發流程。

用戶反饋顯示,Qwen-Image-Edit 的直觀操作和高質量輸出使其成爲非專業設計者的理想工具。例如,一位內容創作者表示:“Qwen-Image-Edit 讓我在幾分鐘內完成營銷視覺設計,文本渲染精準,效果堪比專業軟件。”

作爲阿里通義千問團隊的最新力作,Qwen-Image-Edit 以其強大的文本編輯能力、雙重編碼機制和開源特性,爲 AI 圖像生成與編輯領域樹立了新標杆。無論是中文渲染的斷層式領先,還是語義與外觀編輯的平衡表現,Qwen-Image-Edit 都展現了其作爲行業頂尖模型的實力。

github:https://github.com/QwenLM/Qwen-Image