字節跳動Seed團隊正式發佈了Seedream3.0文生圖模型的技術報告。這一模型在性能上實現了重大提升,是一個原生高分辨率、支持中英雙語的圖像生成基礎模型,在分辨率、生圖結構準確性等多方面取得突破,與上一版本相比優勢顯著。
Seedream3.0在不同維度上的表現。本圖各維度數據以最佳指標爲參照系,已進行歸一化調整。
在功能亮點上,Seedream3.0可原生2K直出,無需後處理就能輸出高分辨率圖像,滿足多種場景需求;出圖速度極快,僅需3秒,極大提升創作效率;小字生成和文本排版效果得到優化,解決了業界難題,具備商業級圖文設計能力;美感和結構進一步提升,指令遵循性增強,出圖更具感染力。
技術實現方面,Seedream3.0從多個維度進行了創新。數據優化上,通過圖像缺陷感知擴充數據集,採用視覺語義協同採樣策略和自研圖文檢索系統改進數據分佈。
預訓練階段,使用跨模態旋轉位置編碼加強文字渲染能力,藉助多分辨率混合訓練實現2K圖像直出,並採用新的損失函數提升訓練效果。後訓練RLHF階段,設計多粒度美感描述,拓展獎勵模型規模,提升模型性能。在推理加速上,採用一致性噪聲預測和平穩採樣過程,利用重要時間步採樣加速模型蒸餾訓練,實現1K分辨率生圖端到端僅需3秒。
目前,Seedream3.0已在豆包、即夢等平臺全量開放。在權威競技場Artificial Analysis的打榜中,它與衆多知名文生圖模型競爭,一度排名第一,尤其在海報設計與創意生成方面表現突出。
未來,Seedream團隊計劃在更高效的結構設計、提升模型智能化水平、探索數據和模型的Scaling現象等方向深入研究,致力於推動視覺生成領域的發展。
Arxiv:https://arxiv.org/abs/2504.11346
技術呈現頁:https://team.doubao.com/tech/seedream3_0