視頻生成領域迎來重大突破!Genmo 公司重磅開源了其最新的視頻生成模型 Mochi1,爲視頻生成領域樹立了新的標杆。Mochi1採用創新的 Asymmetric Diffusion Transformer(AsymmDiT)架構,擁有高達100億個參數,是迄今爲止公開發布的最大視頻生成模型。

更重要的是,它完全從頭開始訓練,具有簡單、可修改的架構特點,爲開源社區的開發者提供了極大的便利。

Mochi1的最大亮點在於其卓越的運動質量和對文本提示的精準遵循。它能夠生成長達5.4秒、幀率高達30幀/秒的流暢視頻,其時間連貫性和逼真的運動動態令人驚歎。

Mochi1還能模擬各種物理現象,例如流體動力學、毛髮模擬等,其生成的人物動作自然流暢,幾乎可以媲美真人表演。

爲了方便開發者使用,Genmo 還開源了其視頻 VAE,可以將視頻壓縮到原始大小的1/128,有效降低了模型的計算量和內存需求。

AsymmDiT 架構則通過多模態自注意力機制,高效處理用戶提示和壓縮視頻標記,併爲每種模態學習單獨的 MLP 層,進一步提升了模型的效率和性能。

image.png

Mochi1的發佈,標誌着開源視頻生成領域邁出了重要一步。Genmo 公司表示,他們將在年底之前發佈 Mochi1的完整版本,包括支持720p 視頻生成的 Mochi1HD,屆時視頻的保真度和流暢度將進一步提升。

爲了讓更多人體驗 Mochi1的強大功能,Genmo 還推出了免費的託管遊樂場,用戶可以在 genmo.ai/play 上進行體驗。 Mochi1的權重和架構也已在 HuggingFace 平臺上公開,供開發者下載使用。

Genmo 公司由 DDPM、DreamFusion 和 Emu Video 等項目的核心成員組成,其顧問團隊包括 Databricks 和 Anyscale 的執行主席兼聯合創始人 Ion Stoica、Covariant 的聯合創始人兼 OpenAI 的早期團隊成員 Pieter Abbeel 以及語言模型系統的先驅兼 Turi 的聯合創始人 Joey Gonzalez 等行業領袖

Genmo 公司的使命是解鎖通用人工智能的右腦,Mochi1是構建可以想象一切事物(無論可能還是不可能)的世界模擬器的第一步。

Genmo 公司最近完成了由 NEA 領投的 A 輪融資,總額高達2840萬美元,這將爲他們未來的研究和開發提供充足的資金支持。

雖然 Mochi1已經取得了令人矚目的成就,但它仍然存在一些侷限性。例如,初始版本目前只能生成480p 的視頻,在某些極端運動的邊緣情況下會出現輕微的扭曲和失真。此外,Mochi1目前主要針對照片寫實風格進行了優化,在動畫內容方面的表現還有待提升。

Genmo 公司表示,他們將繼續改進 Mochi1,並鼓勵社區對模型進行微調,以適應不同的審美偏好。同時,他們也在遊樂場中實施了強大的安全審覈協議,以確保所有視頻生成都符合道德準則。

模型下載:https://huggingface.co/genmo/mochi-1-preview

在線體驗:https://www.genmo.ai/play

官方介紹:https://www.genmo.ai/blog