崑崙萬維集團在SkyWork AI技術發佈周的第三天,宣佈正式開源其最新研發的「Skywork UniPic2.0」模型。這一統一多模態模型的發佈,標誌着多模態人工智能領域的又一次重大突破。Skywork UniPic2.0是一個面向統一多模態建模的高效訓練和推理框架,它通過生成和編輯模塊的輕量化,以及多模態理解模型的聯合訓練,構建了理解、生圖、編輯一體化的核心能力,旨在實現“高效、高質、統一”的多模態生成模型。

微信截圖_20250813091518.png

Skywork UniPic2.0由三個核心模塊組成:生圖編輯、統一模型能力和生圖編輯後訓練。該模型基於SD3.5-Medium架構,將原本只支持文本輸入的模型改進爲同時接受文本和圖像輸入,擴展了生圖能力至生圖和編輯雙能力。通過凍結生圖編輯模塊,多模態模型Qwen2.5-VL-7B,Pre-Train連接器來構建出理解生成編輯一體化能力,再通過連接器和生圖編輯模塊一起聯合微調,實現最終的一體化理解、生圖、編輯模型。

Skywork UniPic2.0的發佈,不僅爲開發者與研究者提供了一個全面開源的平臺,包括模型權重、推理代碼、強化策略等,而且其生成模塊基於2B參數的SD3.5-Medium架構訓練,生圖和編輯指標超越了具有更大參數量的其他模型。此外,該模型引入了強化學習,基於Flow-GRPO首創漸進式雙任務強化策略,有效提升了模型對複雜指令的理解能力與圖像生成和編輯的一致性。

微信截圖_20250813091544.png

項目主頁:

https://unipic-v2.github.io/

技術報告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model: 

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B