字節跳動重磅發佈豆包視頻生成模型支持生成10秒視頻、多鏡頭一致性

火山引擎科技有限公司在2024年AI創新巡展上宣佈推出豆包·視頻生成模型，這是其大模型家族的新成員。

火山引擎總裁譚待表示，豆包·視頻生成模型在視頻生成方面具有多項先進性能，包括精準的語義理解、多動作多主體交互、強大的動態效果和一致性多鏡頭生成能力。

微信截圖_20240924152238.png

該模型能夠理解和遵從複雜的指令，實現多個主體間的交互，並能夠在視頻主體的大動態和鏡頭間進行炫酷切換。此外，它還能夠在多鏡頭切換中保持一致性，10秒內講述一個完整的故事，並支持多種風格和比例，如黑白、3D動畫、國畫等。

同時，模型支持包括黑白、3D動畫、2D動畫、國畫等多種風格，並能適應1:1、3:4、4:3、16:9、9:16、21:9等多種比例，以適配不同終端和畫幅。

豆包·視頻生成模型不僅能夠提升視頻畫質的高保真度，還能夠讓視頻在主體的大動態與鏡頭中進行炫酷切換，擁有變焦、環繞、平搖、縮放、目標跟隨等豐富的鏡頭語言能力。

豆包視頻生成大模型，主要包含兩個版本:Doubao-視頻生成PixelDance和Doubao-視頻生成-Seaweed 。

進入火山引擎，可以看到上線了PixelDance和Seaweed兩個Doubao-視頻生成版本。

一、Doubao-視頻生成PixelDance

PixelDance V1.4是ByteDance Research團隊開發的 DiT 結構的視頻生成大模型，同時支持文生視頻和圖生視頻，能夠一次性生成長達10秒的精彩視頻片段。

這個模型支持用戶輸入文本、圖片生成視頻，模型具備出色的語義理解能力，能快速生成優質的視頻片段，可應用於影視創作、廣告傳媒等多個場景。

以下是PixelDance版本生成案例:

精準的語義理解

PixelDance V1.4可以遵從複雜prompt，解鎖時序性多拍動作指令與多個主體間的交互能力

prompt:一個男人走進畫面，女人轉頭看着他，他們互相擁抱，背景周圍的人在走動。

強大動態與炫酷運鏡

支持超多鏡頭語言，靈活控制視角，帶來真實世界的體驗。

一致性多鏡頭生成

具備一鍵生成故事性多鏡頭短片的能力，並且成功攻克了多鏡頭切換時一致性的技術挑戰，可10秒講述一個起承轉合的故事。在一個prompt內實現多個鏡頭切換，同時保持主體，風格，氛圍的一致性。

多風格、多比例兼容

深度優化後的Transformer結構，大大提升了視頻生成的泛化能力，支持包括黑白、3d動畫、2d動畫、國畫、水彩、水粉等多種風格，包含1:1、3:4、4:、16:9、9:16、21:9六個比例。

二、Doubao-視頻生成-Seaweed

這個模型支持兩種視頻生成方式:文生視頻和圖生視頻。該技術基於Transformer結構，利用時空壓縮的潛空間進行訓練，模型原生支持多分辨率生成，適配橫屏、豎屏，並能夠根據用戶輸入的高清圖像分辨率進行適配和保真。默認輸出爲720p分辨率、24fps、時長5秒，並可動態延長至20-30秒。

以下是Seaweed 版本生成案例:

逼真度極高，細膩豐富的細節層次

prompt：一隻大熊貓正在享用熱騰騰的火鍋。

專業級色彩與光影

動態流暢

豆包·視頻生成模型的推出，預計將爲電商營銷、動畫教育、城市文旅、微劇本（音樂MV、微電影、短劇等）等多個領域帶來創新和效率提升。火山引擎表示，該模型的發佈將全面加速AIGC應用創新。

火山引擎承諾，將繼續推進模型能力的升級和迭代，探索模型能力在更多場合的應用，併爲企業實現雲上智能化提供動力。

數據顯示，截至到9月，豆包大模型的日均 tokens 使用量已經超過1.3萬億，4個月的時間裏 tokens 整體增長超過了10倍。在多模態方面，豆包·文生圖模型日均生成圖片5，000萬張，此外，豆包目前日均處理語音85萬小時。

豆包大模型 2.0 正式上線推理成本降一個數量級 API 同步開放