近日,B 站宣佈其開源的動漫視頻生成模型 AniSora 迎來了重磅更新,版本升級至 AniSora V3。這一更新不僅提升了生成視頻的質量和流暢度,還擴展了動漫風格的多樣性,爲動漫、漫畫和 VTuber 內容創作者提供了更強大的工具支持。

AniSora V3的亮點在於其強大的功能,它能夠一鍵生成多種風格的動漫視頻鏡頭,涵蓋從番劇片段、國產動畫到漫畫改編及鬼畜(MAD)等內容。基於 B 站之前開源的 CogVideoX-5B 和 Wan2.1-14B 模型,V3版本結合了強化學習與人類反饋(RLHF)技術,顯著提高了視頻的視覺質量和動作一致性。

image.png

具體來說,AniSora V3引入了時空掩碼模塊,這一優化使得模型在處理複雜動畫任務時更爲出色。例如,用戶可以通過簡單的提示,如 “五位女孩在鏡頭放大時起舞”,生成流暢且自然的舞蹈動畫,鏡頭與角色動作的同步表現極佳。此外,V3版本還擴展了數據集,利用超過1000萬個高質量動漫視頻片段進行訓練,確保生成內容在風格和細節上的一致性。

硬件方面,AniSora V3新增對華爲 Ascend910B NPU 的支持,基於國產芯片進行訓練,推理速度提升約20%。用戶生成4秒視頻的時間僅需2-3分鐘,效率大幅提升。同時,V3在多任務處理能力上也有顯著增強,支持從單幀圖像生成視頻、關鍵幀插值及脣部同步等功能,特別適合快速製作漫畫改編和 VTuber 內容。

最新的基準測試顯示,AniSora V3在角色一致性和動作流暢度方面達到了業內頂尖水平,尤其是在處理複雜的動畫動作時表現尤爲出色。此外,V3還引入了針對動漫視頻生成的 RLHF 框架,確保生成內容更符合人類的審美需求。開發者們也開始利用 V3創建定製化插件,進一步提升特定動漫風格的生成效果。

AniSora V3不僅在技術上取得了突破,還爲創作者們提供了一個極具潛力的創作平臺。無論是製作預告片還是短篇動畫,它都能幫助用戶快速實現自己的創意。

開源地址:https://github.com/bilibili/Index-anisora/tree/main