通義千問系列首次開源了一款名爲Qwen-Image的20億參數多模態擴散變換器(MMDiT)圖像生成基礎模型。這一創新成果不僅在複雜文本渲染和精確圖像編輯方面取得了突破性進展,更是在多個公開基準測試中展現了卓越性能,成爲圖像生成與編輯領域的新星。

Qwen-Image以其強大的文本渲染能力脫穎而出,支持多行佈局、段落級文本生成及細粒度細節呈現,無論是英語還是中文,均能實現高保真輸出。例如,在渲染宮崎駿風格的動漫場景時,模型能夠精準呈現店鋪牌匾、人物姿勢及神態,甚至酒缸上的細小文字也清晰可見。同樣,在中文對聯的渲染中,Qwen-Image不僅準確繪製了左右聯和橫批,還巧妙融入了書法效果,令人歎爲觀止。

微信截圖_20250805080614.png

英文文本渲染方面,Qwen-Image同樣表現出色。無論是書店櫥窗的展示信息,還是複雜的信息圖表,模型都能準確無誤地生成文本內容,並巧妙融入整體構圖,展現出高度的藝術性和信息性。更令人印象深刻的是,即便在處理更小或更多的文字時,Qwen-Image依然能夠保持高度的準確性和清晰度,如準確生成手中紙張上的長段文字,或在玻璃板上完整呈現手寫體段落。

除了文本渲染,Qwen-Image在圖像編輯方面也展現了非凡實力。通過增強的多任務訓練範式,模型在編輯過程中能出色保持一致性,支持風格遷移、物體增減、細節增強及人物姿態調整等多種操作。這使得普通用戶也能輕鬆實現專業級的圖像編輯,大大降低了視覺內容創作的技術門檻。

在多個公開基準測試中,Qwen-Image的表現更是令人矚目。從通用圖像生成的GenEval、DPG和OneIG-Bench,到圖像編輯的GEdit、ImgEdit和GSO,Qwen-Image均取得了最先進的性能,展現了其在圖像生成與編輯方面的全面優勢。特別是在中文文本渲染上,Qwen-Image大幅領先現有最先進模型,凸顯了其作爲先進圖像生成模型的獨特地位。

目前,Qwen-Image已在魔搭社區、Hugging Face及GitHub等平臺開源,並提供了詳細的Technical report和Demo展示。用戶可通過訪問QwenChat(chat.qwen.ai)選擇“圖像生成”功能,親身體驗這款強大模型的魅力。

ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face:https://huggingface.co/Qwen/Qwen-Image

GitHub:https://github.com/QwenLM/Qwen-Image

Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced