騰訊宣佈正式發佈混元圖像3.0,這是業界首個開源的商用級原生多模態生圖模型。該模型擁有80億參數,是目前效果最優、參數量最大的開源生圖模型,能夠與頂尖閉源模型相媲美。用戶可以通過騰訊混元官網體驗該模型,模型的權重和加速版本也已在 GitHub 和 Hugging Face 等開源社區發佈,供廣大開發者免費下載和使用。

原生多模態技術架構
混元圖像3.0的亮點在於其 “原生多模態” 技術架構,允許用戶通過一個模型同時處理文字、圖片、視頻和音頻等多種輸入和輸出形式,而不再依賴多個模型的組合。這種創新使得模型具備了圖像生成和語義理解的雙重能力,類似於一個擁有思考能力的 “智能畫家”。

高級語義理解與自動生成
該模型的語義理解能力顯著提升,用戶只需簡單輸入提示詞,例如 “生成一個月全食的四格科普漫畫”,模型便能自動生成完整的漫畫,無需用戶對每一格進行詳細描述。

混元圖像3.0語義理解能力和美學質感也得到了大幅提升,可以實現對用戶指令的精確生成,包括圖片中的小字和長文本生成,都能較好地實現。
官方案例:比如輸入:“你是一個小紅書穿搭博主,請根據模特穿搭生成一張封面圖片,要求:1.畫面左側是模特的OOTD全身圖2.右側是衣服的展示,分別是上衣深棕色夾克、下裝黑色百褶短裙、棕色靴子、黑色包包 風格:實物攝影,要求真實,有氛圍感,秋季美拉德色系穿搭”。在這個提示詞下,混元圖像3.0可以準確地把左側博主的穿搭分解成右側單獨的衣物。

此外,混元圖像3.0可以處理複雜的文字要求,生成詳細的商品圖、海報和插畫,滿足各類創作需求。
提升創作效率
混元圖像3.0的發佈不僅方便了插畫師和設計師,還能幫助缺乏美術基礎的內容創作者更輕鬆地製作出高質量的視覺內容。原本需要數小時的創作過程,現在可能僅需幾分鐘就能完成,大幅提升了創作效率。
多任務訓練與未來展望
混元圖像3.0基於50億圖文對和6TB 語料數據進行多模態混合訓練,充分融合了多任務效果,從而實現超強的語義理解能力。騰訊團隊透露,未來將陸續推出圖生圖、圖像編輯、多輪交互等新功能,以進一步增強用戶體驗。
用戶可以通過訪問騰訊混元官網(https://hunyuan.tencent.com/image)來體驗這一全新的圖像生成技術。此外,混元圖像3.0的模型權重和加速版本已經在 Github、Hugging Face 等開源平臺上發佈,用戶可以免費進行下載和使用。
劃重點:
🌟 混元圖像3.0是首個開源的原生多模態生圖模型,參數規模達80B。
🖌️ 該模型具備優異的語義理解能力,用戶可以通過簡短提示詞生成複雜圖像。
🚀 模型發佈後將提升視覺創作者的效率,未來將推出更多功能以滿足不同需求。
