火山引擎發佈大模型訓練視頻預處理方案 PixelDance已採用

火山引擎在近期的視頻雲技術大會上發佈了一項重要創新:大模型訓練視頻預處理方案。這一技術已成功應用於豆包視頻生成模型，標誌着AI視頻生成技術的重大進展。

火山引擎總裁譚待強調，AIGC和多模態技術正在深刻改變用戶體驗。基於抖音的實踐經驗，火山引擎正積極探索AI大模型與視頻技術的融合，爲企業提供全方位解決方案。

抖音集團視頻架構負責人王悅指出，大模型訓練面臨諸多挑戰，包括海量數據處理成本高、樣本質量不一、處理鏈路複雜，以及多種異構算力資源的調度問題。

爲應對這些挑戰，火山引擎開發的預處理方案基於自研的多媒體處理框架BMF，並藉助Intel的多樣化算力資源。該方案在算法和工程層面進行了優化，能高效處理海量視頻數據，顯著提高模型訓練效率。

此外，火山引擎還開源了移動端後處理解決方案BMF lite版本，支持端側大模型接入和算子加速，更加輕量化和通用。

值得注意的是，9月24日發佈的豆包視頻生成模型PixelDance已採用這一技術方案。該模型採用DiT架構，突破了多主體運動的複雜交互和多鏡頭切換的內容一致性難題。目前，豆包視頻生成模型已通過火山引擎向企業開放邀測。

火山引擎發佈豆包音頻生成模型1.0：一句話生成影視級音頻，角色聲音 10 分鐘都不"串戲"

火山引擎發佈豆包音頻生成模型1.0，支持文本或音頻輸入，端到端生成完整音頻作品。核心突破是單條Prompt即可同步生成對白、音效和背景音樂，無需傳統多軌剪輯。該技術大幅簡化音頻製作流程，讓用戶像“音頻導演”一樣高效產出成片級音頻，徹底告別手動對齊混音的複雜後期工作。

火山引擎發佈豆包2.1Pro:日常功能確認免費，將推專業版辦公模式

2026年6月23日火山引擎FORCE大會，字節跳動發佈豆包大模型重大升級：推出2.1Pro，聚焦編程、智能體與視覺語言模型；同時發佈視頻生成模型Seedance 2.5及2.04K版、圖像生成模型Seedream 5.0 Pro、音頻生成模型1.0。2.1Pro已開放API並接入釦子生態。火山引擎總裁譚待表示，豆包面向用戶的日常基礎功能（如搜索問答）將持續免費。

火山引擎發佈大模型訓練視頻預處理方案 PixelDance已採用

相關推薦

火山引擎發佈豆包音頻生成模型1.0：一句話生成影視級音頻，角色聲音 10 分鐘都不"串戲"

豆包音頻生成模型1. 0 發佈，開啓“音頻導演”時代

豆包視頻生成大模型 Seedance 2.5 亮相，將於 7 月初正式發佈

火山引擎發佈豆包2.1Pro:日常功能確認免費，將推專業版辦公模式

字節Seedance 2. 5 七月上線， 50 個素材同時輸入，還能"魔改"周星馳電影