火山引擎在近期的視頻雲技術大會上發佈了一項重要創新:大模型訓練視頻預處理方案。這一技術已成功應用於豆包視頻生成模型,標誌着AI視頻生成技術的重大進展。

火山引擎總裁譚待強調,AIGC和多模態技術正在深刻改變用戶體驗。基於抖音的實踐經驗,火山引擎正積極探索AI大模型與視頻技術的融合,爲企業提供全方位解決方案。

抖音集團視頻架構負責人王悅指出,大模型訓練面臨諸多挑戰,包括海量數據處理成本高、樣本質量不一、處理鏈路複雜,以及多種異構算力資源的調度問題。

爲應對這些挑戰,火山引擎開發的預處理方案基於自研的多媒體處理框架BMF,並藉助Intel的多樣化算力資源。該方案在算法和工程層面進行了優化,能高效處理海量視頻數據,顯著提高模型訓練效率。

此外,火山引擎還開源了移動端後處理解決方案BMF lite版本,支持端側大模型接入和算子加速,更加輕量化和通用。

值得注意的是,9月24日發佈的豆包視頻生成模型PixelDance已採用這一技術方案。該模型採用DiT架構,突破了多主體運動的複雜交互和多鏡頭切換的內容一致性難題。目前,豆包視頻生成模型已通過火山引擎向企業開放邀測。