崑崙萬維開源多模態統一預訓練模型 Skywork UniPic

7月30日，崑崙萬維正式推出並開源了採用自迴歸路線的多模態統一預訓練模型Skywork UniPic。該模型在單一架構中深度融合了圖像理解、文本到圖像生成及圖像編輯三大核心能力，基於大規模高質量數據端到端預訓練，展現了優異的通用性與可遷移性。

微信截圖_20250730091348.png

模型採用MAR編碼器與SigLIP2主幹網絡，突破了傳統多模態模型依賴VQ或VAE編碼器導致的語義信息保留不足的侷限，實現了跨任務的深度協同。用戶僅需輸入提示詞，即可同時完成圖像理解、生成及風格轉繪等複雜操作，例如生成特定場景的圖片或對圖像進行風格化編輯。

在性能方面，Skywork UniPic以1.5B參數規模實現了接近大型統一模型的效能。在指令遵循、複雜指令生圖及圖像編輯等基準測試中，該模型均達到行業領先水平，尤其在消費級顯卡上即可流暢運行，顯著降低了技術應用門檻。

模型的成功得益於精煉的數據構建體系、專用的Reward Model優化及漸進式多任務訓練策略。通過高效能語料庫與分層分辨率訓練機制，Skywork UniPic兼顧了模型性能與訓練效率，避免了傳統方法中能力權衡的技術瓶頸。

此次開源是崑崙萬維持續推動AI技術普惠的重要舉措。此前，公司已開源多個領域的大模型，而Skywork UniPic的加入將進一步助力AI成爲觸手可及的創意工具。用戶可通過指定鏈接獲取模型權重、技術報告及代碼倉庫等核心資源。

模型權重:

https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技術報告:

https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代碼倉庫:

https://github.com/SkyworkAI/UniPic

崑崙萬維開源多模態統一預訓練模型 Skywork UniPic，融合圖片生成與理解能力

崑崙萬維開源多模態模型Skywork UniPic，集成圖像理解、生成與編輯三大功能。該1.5B參數的輕量級模型採用自迴歸架構，基於大規模數據端到端預訓練，性能接近大型模型。其創新點在於統一處理多模態任務，支持圖文理解、文本生成圖像及風格轉繪等操作。團隊通過精細化數據構建和多階段訓練優化模型表現，在指令遵循等任務中展現優異能力。提供完整技術文檔和代碼，降低開發者使用門檻。

崑崙萬維重磅推出 Skywork UniPic：多模態統一預訓練模型開啓 AI 新紀元！

崑崙萬維發佈開源多模態預訓練模型Skywork UniPic，整合圖像理解、文生圖和圖像編輯三大功能。該模型採用自迴歸訓練方式，基於大規模高質量數據訓練，具備良好的通用性和遷移能力。其開源特性便於開發者二次創新，可廣泛應用於內容創作和行業場景。這是崑崙萬維在AI領域的重要佈局，將推動多模態技術發展和應用普及。

扎克伯格挖人計劃曝光！Meta 重金招募 AI 人才卻屢屢碰壁

Meta CEO扎克伯格高薪挖角AI人才，向穆拉蒂新創公司TML12名員工開出最高10億美元薪酬方案，但無人接受。Meta通訊總監否認部分報道細節。扎克伯格通過WhatsApp直接聯繫候選人，承諾打造世界級AI助手，並計劃以開源策略對抗OpenAI。但Meta的領導風格和模糊的產品路線讓人才卻步，而TML剛完成120億美元融資，研究人員更看重發展前景而非高薪。

小米汽車強調安全：輔助駕駛非自動駕駛，務必留意路況

小米汽車7月29日宣佈爲SU7 Pro/Max/Ultra車型推送1000萬Clips版本端到端輔助駕駛更新，重點優化高速場景下的領航輔助功能，提升運行穩定性與駕駛舒適度。官方特別強調該功能仍屬輔助駕駛範疇，提醒用戶需時刻關注路況並隨時準備接管車輛，確保行車安全。

Luma與Runway瞄準機器人與自動駕駛，拓展未來營收版圖

AI視頻生成公司Luma和Runway正拓展業務版圖，從影視製作轉向機器人和自動駕駛領域。Luma憑藉3D AI世界模型技術，致力於提升機器人環境感知能力；Runway則瞄準視頻遊戲市場，計劃用AI革新遊戲內容製作。這一戰略調整展現了AI視頻技術在跨行業應用中的潛力，也預示着AI企業營收多元化的新趨勢。

崑崙萬維開源多模態統一預訓練模型 Skywork UniPic

相關推薦