崑崙萬維正式推出了自迴歸路線的「多模態統一預訓練模型 Skywork UniPic」,並將其開源。這款模型在一個系統中集成了圖像理解、文本生成圖像(T2I)和圖像編輯三大核心功能,標誌着人工智能技術的進一步發展。

Skywork UniPic 的核心特點在於其基於大規模高質量數據進行端到端的預訓練,展現出良好的通用性和可遷移性。該團隊致力於推動開放合作和創新共享,用戶可以通過提供的鏈接獲取模型權重、技術報告和代碼倉庫,方便開發者和研究者進行進一步的探索和應用。

image.png

Skywork UniPic 借鑑了 GPT-4o 的自迴歸範式,通過結合圖像理解、文本到圖像生成和圖像編輯任務,建立了一個真正統一的多模態模型架構。與傳統的多模態模型不同,Skywork UniPic 採用了 MAR 編碼器和 SigLIP2結構設計,這樣的設計意圖在於提升模型在理解、生成和編輯任務上的表現。

該模型的能力包括圖文理解、圖像生成和圖像編輯。用戶只需輸入簡單的提示詞,Skywork UniPic 就能理解圖像內容、生成新圖像,甚至進行風格轉繪等編輯操作。其使用簡便性和強大功能,使得這款模型在開發者中備受關注。

Skywork UniPic 以其1.5B 的輕量級參數規模,實現了近乎大型模型的性能,強調了 “小而美” 的技術設計理念。在各類評估中,該模型表現出色,尤其是在指令遵循、複雜指令生成和圖像編輯方面,展現了優異的執行能力。

爲確保 Skywork UniPic 的高性能,團隊還建立了精細化的數據構建和訓練體系,通過使用精選的訓練數據和創新的獎勵模型,不斷優化模型性能。通過多階段的訓練和漸進式任務引入,Skywork UniPic 不僅提升了模型的理解和生成能力,還有效地解決了多任務訓練中存在的挑戰。

Skywork UniPic 的發佈爲多模態人工智能模型的實用化應用提供了新的解決方案,極大地降低了技術門檻,鼓勵更多開發者參與到這一領域的探索中來。

模型權重:

https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技術報告:

https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代碼倉庫:

https://github.com/SkyworkAI/UniPic

劃重點:

🌟 Skywork UniPic 是崑崙萬維推出的開源多模態統一預訓練模型,集成了圖像理解、生成和編輯功能。  

💻 模型採用1.5B 的輕量級設計,性能接近大型模型,便於開發者使用。  

📊 通過精細化的數據構建和多階段訓練,Skywork UniPic 在各類評估中表現出色,推動了多模態人工智能的發展。