7月30日,崑崙萬維正式推出並開源了採用自迴歸路線的多模態統一預訓練模型Skywork UniPic。該模型在單一架構中深度融合了圖像理解、文本到圖像生成及圖像編輯三大核心能力,基於大規模高質量數據端到端預訓練,展現了優異的通用性與可遷移性。
模型採用MAR編碼器與SigLIP2主幹網絡,突破了傳統多模態模型依賴VQ或VAE編碼器導致的語義信息保留不足的侷限,實現了跨任務的深度協同。用戶僅需輸入提示詞,即可同時完成圖像理解、生成及風格轉繪等複雜操作,例如生成特定場景的圖片或對圖像進行風格化編輯。
在性能方面,Skywork UniPic以1.5B參數規模實現了接近大型統一模型的效能。在指令遵循、複雜指令生圖及圖像編輯等基準測試中,該模型均達到行業領先水平,尤其在消費級顯卡上即可流暢運行,顯著降低了技術應用門檻。
模型的成功得益於精煉的數據構建體系、專用的Reward Model優化及漸進式多任務訓練策略。通過高效能語料庫與分層分辨率訓練機制,Skywork UniPic兼顧了模型性能與訓練效率,避免了傳統方法中能力權衡的技術瓶頸。
此次開源是崑崙萬維持續推動AI技術普惠的重要舉措。此前,公司已開源多個領域的大模型,而Skywork UniPic的加入將進一步助力AI成爲觸手可及的創意工具。用戶可通過指定鏈接獲取模型權重、技術報告及代碼倉庫等核心資源。
模型權重:
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技術報告:
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代碼倉庫:
https://github.com/SkyworkAI/UniPic