火山引擎科技有限公司在2024年AI創新巡展上宣佈推出豆包·視頻生成模型,這是其大模型家族的新成員。

火山引擎總裁譚待表示,豆包·視頻生成模型在視頻生成方面具有多項先進性能,包括精準的語義理解、多動作多主體交互、強大的動態效果和一致性多鏡頭生成能力。

微信截圖_20240924152238.png

該模型能夠理解和遵從複雜的指令,實現多個主體間的交互,並能夠在視頻主體的大動態和鏡頭間進行炫酷切換。此外,它還能夠在多鏡頭切換中保持一致性,10秒內講述一個完整的故事,並支持多種風格和比例,如黑白、3D動畫、國畫等。

同時,模型支持包括黑白、3D動畫、2D動畫、國畫等多種風格,並能適應1:1、3:4、4:3、16:9、9:16、21:9等多種比例,以適配不同終端和畫幅。

豆包·視頻生成模型不僅能夠提升視頻畫質的高保真度,還能夠讓視頻在主體的大動態與鏡頭中進行炫酷切換,擁有變焦、環繞、平搖、縮放、目標跟隨等豐富的鏡頭語言能力。

豆包視頻生成大模型,主要包含兩個版本:Doubao-視頻生成PixelDance和Doubao-視頻生成-Seaweed 。

進入火山引擎,可以看到上線了PixelDance和Seaweed兩個Doubao-視頻生成版本。

image.png

一、Doubao-視頻生成PixelDance

PixelDance V1.4是ByteDance Research團隊開發的 DiT 結構的視頻生成大模型,同時支持文生視頻和圖生視頻,能夠一次性生成長達10秒的精彩視頻片段。

這個模型支持用戶輸入文本、圖片生成視頻,模型具備出色的語義理解能力,能快速生成優質的視頻片段,可應用於影視創作、廣告傳媒等多個場景。

以下是PixelDance版本生成案例:

精準的語義理解

PixelDance V1.4可以遵從複雜prompt,解鎖時序性多拍動作指令與多個主體間的交互能力

prompt:一個男人走進畫面,女人轉頭看着他,他們互相擁抱,背景周圍的人在走動。

強大動態與炫酷運鏡

支持超多鏡頭語言,靈活控制視角,帶來真實世界的體驗。

一致性多鏡頭生成

具備一鍵生成故事性多鏡頭短片的能力,並且成功攻克了多鏡頭切換時一致性的技術挑戰,可10秒講述一個起承轉合的故事。在一個prompt內實現多個鏡頭切換,同時保持主體,風格,氛圍的一致性。

多風格、多比例兼容

深度優化後的Transformer結構,大大提升了視頻生成的泛化能力,支持包括黑白、3d動畫、2d動畫、國畫、水彩、水粉等多種風格,包含1:1、3:4、4:、16:9、9:16、21:9六個比例。

image.png

二、Doubao-視頻生成-Seaweed 

這個模型支持兩種視頻生成方式:文生視頻和圖生視頻。該技術基於Transformer結構,利用時空壓縮的潛空間進行訓練,模型原生支持多分辨率生成,適配橫屏、豎屏,並能夠根據用戶輸入的高清圖像分辨率進行適配和保真。默認輸出爲720p分辨率、24fps、時長5秒,並可動態延長至20-30秒。

以下是Seaweed 版本生成案例:

逼真度極高,細膩豐富的細節層次

prompt:一隻大熊貓正在享用熱騰騰的火鍋。

專業級色彩與光影

動態流暢

豆包·視頻生成模型的推出,預計將爲電商營銷、動畫教育、城市文旅、微劇本(音樂MV、微電影、短劇等)等多個領域帶來創新和效率提升。火山引擎表示,該模型的發佈將全面加速AIGC應用創新。

火山引擎承諾,將繼續推進模型能力的升級和迭代,探索模型能力在更多場合的應用,併爲企業實現雲上智能化提供動力。

數據顯示,截至到9月,豆包大模型的日均 tokens 使用量已經超過1.3萬億,4個月的時間裏 tokens 整體增長超過了10倍。在多模態方面,豆包·文生圖模型日均生成圖片5,000萬張,此外,豆包目前日均處理語音85萬小時。