在近期的人工智能視頻生成領域,字節跳動(TikTok 的母公司)悄然發佈了一款名爲 Seedance1.0的新模型,該模型在獨立的評測中已經超越了谷歌最新推出的 Veo3。Veo3以其音頻合成和電影級工具而受到廣泛關注,但 Seedance1.0的技術實力卻令人刮目相看,成爲視頻生成的領頭羊。

Seedance1.0的研究論文中詳細介紹了該模型的創新之處。字節跳動的團隊通過對空間和時間層的解耦,結合了多模態位置編碼,從而使得該模型能夠同時處理文本到視頻和圖像到視頻的生成任務。這樣的方法支持複雜的場景切換和多鏡頭敘事,保持了一致的主題表現。

image.png

此外,Seedance1.0的性能離不開字節跳動強大的數據管道。團隊精心構建了一個大規模、多來源的數據集,配有詳細的雙語註釋和豐富的動作與靜態特徵標註,確保生成內容的準確性。同時,採用了一種新穎的強化學習設置,結合了三個獎勵模型,重點關注基礎對齊、動作質量和美觀度。

image.png

在評測中,Seedance1.0在多個維度上超過了 Veo3。在與電影導演合作開發的 SeedVideoBench 基準測試中,該模型在遵循提示和動作真實感方面取得了更高的分數。在圖像到視頻的任務中,Seedance 保持了輸入幀的視覺一致性,而 Veo3則在某些情況下出現了光照和紋理的變化。

image.png

在推理性能方面,Seedance1.0也表現出色。該模型能夠在41.4秒內生成一段1080p 的五秒視頻,這一速度遠超其他競爭對手,如 Sora、Runway Gen-4和 Veo3。字節跳動還表示,他們在降低成本和延遲方面取得了重大進展,使得視頻生成向實時應用的目標邁進了一步。

Seedance1.0計劃於2025年6月集成到 Doubao 和 Jimeng 等平臺,旨在顯著改善專業工作流程和常規創作任務。雖然 Veo3因首次結合了真實視頻與環境音效和對話而備受矚目,但 Seedance1.0在視覺保真度、運動穩定性和敘事連貫性方面表現更爲出色,雖然在音頻能力上有所欠缺。

劃重點:

🌟 Seedance1.0的發佈超越了谷歌的 Veo3,成爲視頻生成技術的新標杆。  

⚙️ 該模型通過多模態位置編碼實現了複雜的場景切換和多鏡頭敘事。  

⚡ Seedance1.0在生成速度和視覺一致性上表現優異,有望在2025年成爲專業創作的重要工具。