騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

騰訊混元發佈了其最新的生圖模型 “混元圖像2.1（HunyuanImage2.1）”。這一全新的開源文生圖模型在多個方面進行了重要升級，支持原生2K 分辨率圖像生成，旨在爲設計師和視覺創作者提供更高效、更便捷的創作工具。

在這次更新中，混元圖像2.1在性能與生成效果之間找到了更好的平衡。它不僅支持中英文原生輸入，還能生成高質量的複雜語義文本。這一特性讓創作者能夠輕鬆生成多樣化的圖像作品，無論是精美的插畫、富有創意的海報，還是多樣的漫畫形式，都能快速實現。

混元圖像2.1的升級還得益於其龐大的圖文對齊數據集，使得模型在複雜語義理解和跨領域泛化能力上有了顯著提升。它支持最長1000個 tokens 的提示詞，可以精準生成場景細節、人物表情和動作，允許對多物體進行分別描述和控制。此外，新模型在處理圖像中的文字信息方面也表現出色，能夠自然地將文字與畫面相融合，提升了作品的整體美感。

作爲一款開源模型，混元圖像2.1的代碼和權重已經在 Hugging Face 和 GitHub 等平臺上發佈。個人和企業開發者都可以基於這一基礎模型進行進一步的研究和開發，滿足不同的衍生需求。未來，騰訊還透露了一款原生多模態圖像生成模型正在研發中，值得期待。

混元圖像2.1的發佈將爲視覺創作者帶來更豐富的創作工具，助力他們在創意實現的道路上更進一步。

【相關鏈接】

騰訊混元官網:https://hunyuan.tencent.com/image
Github:https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
Hugging Face:https://huggingface.co/tencent/HunyuanImage-2.1
Hugging Face Demo:https://huggingface.co/spaces/tencent/HunyuanImage-2.1

劃重點:
🌟 支持原生2K 分辨率，提升圖像生成質量與效率。
🖊️ 具備強大的複雜語義理解能力，支持高質量的文本生成。
🔧 開源模型已上線，開發者可基於其進行研究與開發。

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

OpenAI前研究員田永龍已加入騰訊，或將擔任混元多模態模型負責人，主導視覺語言模型（VLM）研發。消息尚未官宣但備受業界關注，繼姚順雨之後，他成爲混元團隊引進的又一核心人才，顯示騰訊正加速強化多模態大模型領域的人才與技術佈局。

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

騰訊混元聯合上海交大、新加坡南洋理工、天津大學、北大、復旦等機構，推出首個通用指令驅動音頻編輯基準測試集MMAE。該基準針對AI編輯現有音頻的能力，彌補了當前音頻生成領域“編輯”能力的不足，爲多任務音頻編輯研究提供了重要評估標準。

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench，這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度，覆蓋30多種規劃任務類型，支持數據生成與驗證，旨在評估模型的實際規劃能力。

騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

相關推薦

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

OpenAI又走一員大將：田永龍疑似投奔騰訊混元，將執掌多模態方向

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

​騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

相關推薦

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

OpenAI又走一員大將：田永龍疑似投奔騰訊混元，將執掌多模態方向

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

​騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench