今日,豆包大模型團隊正式發佈文生圖技術報告,首次公開Seedream2.0圖像生成模型的技術細節,涵蓋數據構建、預訓練框架、後訓練RLHF全流程,在文生圖領域投下一顆“重磅炸彈”。

Seedream2.0自2024年12月初在豆包APP和即夢上線後,已服務上億C端用戶,深受專業設計師青睞。與Ideogram2.0、Midjourney V6.1等主流模型相比,它解決了文本渲染不佳、對中國文化理解不足等問題,在中英文雙語理解、美感和指令遵循等方面實現全面提升。

QQ20250312-134342.png

QQ20250312-134350.png

通過Bench-240評測基準測試,其英文提示詞生成內容的結構合理性、文本理解準確性更勝一籌;中文生成與渲染文字可用率達78%,完美響應率爲63%,遠超業界其他模型。

QQ20250312-134356.png

在技術實現上,團隊進行了多方面創新。數據預處理環節,構建以“知識融合”爲核心的框架。四維數據架構平衡數據質量與知識多樣性,智能標註引擎實現三級認知進化,提升模型理解和識別能力,工程化重構則大幅提高數據處理效率。

預訓練階段,團隊聚焦雙語理解與文字渲染。原生雙語對齊方案,通過微調LLM和構建專用數據集,打破語言視覺次元壁;雙模態編碼融合系統讓模型兼顧文本語義和字體字形;三重升級DiT架構,引入QK-Norm和Scaling ROPE技術,提升訓練穩定性,實現多分辨率圖像生成。

QQ20250312-134404.png

注:面向英文提示詞,Seedream2.0在不同維度上的表現。本圖各維度數據以最佳指標爲參照系,已進行歸一化調整。

後訓練RLHF過程中,團隊開發優化系統,從多維度偏好數據體系、三個不同獎勵模型、反覆學習驅動模型進化三方面發力,有效提升模型性能,不同獎勵模型的表現分數值在迭代中穩步上升。

QQ20250312-134518.png

注:面向中文提示詞,Seedream2.0在不同維度上的表現。本圖各維度數據以最佳指標爲參照系,已進行歸一化調整。

此次技術報告的發佈,彰顯了豆包大模型團隊推動圖像生成技術發展的決心。未來,團隊將繼續探索創新技術,提升模型性能邊界,深入研究強化學習優化機制,持續分享技術經驗,助力行業蓬勃發展。 

技術展示頁:https://team.doubao.com/tech/seedream

技術報告:https://arxiv.org/pdf/2503.07703