豆包大模型近日發佈了系列更新,其中豆包1.5·深度思考模型和豆包文生圖模型3.0正式通過火山引擎開放 API,供開發者和企業客戶使用。這兩款模型在推理任務和通用任務的綜合表現達到了業界前沿水平,並在視覺推理和圖像生成方面取得了顯著進展。
豆包1.5·深度思考模型在專業領域推理任務中表現出色,數學推理 AIME2024測試得分追平 OpenAI o3-mini-high,編程競賽 Codeforces pass@8得分接近 OpenAI o1,科學推理 GPQA 得分接近 o3-mini-high,均達到或接近全球第一梯隊。在創意寫作等非推理任務中,該模型也展示了優秀的泛化能力,能夠勝任更廣泛和複雜的使用場景。
爲提升模型的通用能力,豆包團隊優化了數據處理策略,融合了可驗證與創意性數據,以滿足各類任務需求。大規模強化學習是訓練推理模型的關鍵技術,團隊創新性地提出了雙軌獎勵機制,兼顧“對錯分明”和“見仁見智”任務,並有效實現了算法的可靠優化。此外,團隊還優化了底層架構,保障了訓練的穩定性、可擴展性、可重複性和計算效率。

豆包深度思考模型採用 MoE 架構,總參數爲200B,激活參數僅20B,具備顯著的訓練和推理成本優勢。基於高效算法和高性能推理系統,模型在提供極高併發承載能力的同時,實現了20毫秒的極低延遲。此外,該模型還具備視覺推理能力,能夠像人類一樣對看到的事物進行聯想和思考,極大地拓展了智能推理的應用邊界。
豆包文生圖模型3.0是一個原生高分辨率、支持中英雙語的圖像生成基礎模型,整體性能相比上一代有較大提升。該模型在分辨率、生圖結構準確性、數量準確性、多物體屬性關係、小字生成與排版、美感效果、真實度等方面取得了顯著突破。Seedream3.0採取多項策略實現高效推理,1K 分辨率出圖端到端僅需3秒,能夠快速生成高品質圖像,大幅提升創作效率。此外,該模型還優化了小字體高保真生成、多行文本語義排版等業界難題,讓 AI 具備商業級圖文設計能力。
在文生圖權威競技場 Artificial Analysis 上,豆包文生圖模型 Seedream3.0與 GPT-4o、Imagen3、Midjourney v6.1、FLUX1.1Pro 等模型同臺競技,排名位居第一梯隊。Seedream3.0已在字節跳動旗下豆包、即夢等平臺全量開放,爲企業客戶提供了強大的圖像生成能力。
豆包深度思考模型和文生圖模型3.0的開放,爲企業客戶提供了更高效、更通用的推理能力和更強大的圖像生成能力,進一步推動了 AI 技術在各行業的應用和發展。
豆包深度思考模型技術報告詳見:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
Seedream3.0技術報告詳見:https://team.doubao.com/tech/seedream3_0
