Genmo 重磅開源視頻生成模型 Mochi 1：高畫質、超流暢，家用電腦也能創作好萊塢級大片！

視頻生成領域迎來重大突破!Genmo 公司重磅開源了其最新的視頻生成模型 Mochi1，爲視頻生成領域樹立了新的標杆。Mochi1採用創新的 Asymmetric Diffusion Transformer（AsymmDiT）架構，擁有高達100億個參數，是迄今爲止公開發布的最大視頻生成模型。

更重要的是，它完全從頭開始訓練，具有簡單、可修改的架構特點，爲開源社區的開發者提供了極大的便利。

Mochi1的最大亮點在於其卓越的運動質量和對文本提示的精準遵循。它能夠生成長達5.4秒、幀率高達30幀/秒的流暢視頻，其時間連貫性和逼真的運動動態令人驚歎。

Mochi1還能模擬各種物理現象，例如流體動力學、毛髮模擬等，其生成的人物動作自然流暢，幾乎可以媲美真人表演。

爲了方便開發者使用，Genmo 還開源了其視頻 VAE，可以將視頻壓縮到原始大小的1/128，有效降低了模型的計算量和內存需求。

AsymmDiT 架構則通過多模態自注意力機制，高效處理用戶提示和壓縮視頻標記，併爲每種模態學習單獨的 MLP 層，進一步提升了模型的效率和性能。

Mochi1的發佈，標誌着開源視頻生成領域邁出了重要一步。Genmo 公司表示，他們將在年底之前發佈 Mochi1的完整版本，包括支持720p 視頻生成的 Mochi1HD，屆時視頻的保真度和流暢度將進一步提升。

爲了讓更多人體驗 Mochi1的強大功能，Genmo 還推出了免費的託管遊樂場，用戶可以在 genmo.ai/play 上進行體驗。 Mochi1的權重和架構也已在 HuggingFace 平臺上公開，供開發者下載使用。

Genmo 公司由 DDPM、DreamFusion 和 Emu Video 等項目的核心成員組成，其顧問團隊包括 Databricks 和 Anyscale 的執行主席兼聯合創始人 Ion Stoica、Covariant 的聯合創始人兼 OpenAI 的早期團隊成員 Pieter Abbeel 以及語言模型系統的先驅兼 Turi 的聯合創始人 Joey Gonzalez 等行業領袖。

Genmo 公司的使命是解鎖通用人工智能的右腦，Mochi1是構建可以想象一切事物（無論可能還是不可能）的世界模擬器的第一步。

Genmo 公司最近完成了由 NEA 領投的 A 輪融資，總額高達2840萬美元，這將爲他們未來的研究和開發提供充足的資金支持。

雖然 Mochi1已經取得了令人矚目的成就，但它仍然存在一些侷限性。例如，初始版本目前只能生成480p 的視頻，在某些極端運動的邊緣情況下會出現輕微的扭曲和失真。此外，Mochi1目前主要針對照片寫實風格進行了優化，在動畫內容方面的表現還有待提升。

Genmo 公司表示，他們將繼續改進 Mochi1，並鼓勵社區對模型進行微調，以適應不同的審美偏好。同時，他們也在遊樂場中實施了強大的安全審覈協議，以確保所有視頻生成都符合道德準則。

模型下載:https://huggingface.co/genmo/mochi-1-preview

在線體驗:https://www.genmo.ai/play

官方介紹:https://www.genmo.ai/blog

Genmo 重磅開源視頻生成模型 Mochi 1：高畫質、超流暢，家用電腦也能創作好萊塢級大片！

相關推薦

5個月增長15倍，智譜AI憑Coding路線衝擊10億美元ARR

PixVerse 完成 4.39 億美元 C 輪擴展融資估值飆升至 20 億美元

生數 Vidu Q3 上線華爲雲，打造“爲劇而生”的視頻生成方案

6 人團隊 48 小時搞定電影級長視頻！華科大自研AI平臺“愛烏”破解行業穿幫痛點

字節跳動開源Bernini框架：實現視頻生成與精準編輯的完美統一

Genmo 重磅開源視頻生成模型 Mochi 1：高畫質、超流暢，家用電腦也能創作好萊塢級大片！

相關推薦

5個月增長15倍，智譜AI憑Coding路線衝擊10億美元ARR

PixVerse 完成 4.39 億美元 C 輪擴展融資 估值飆升至 20 億美元

生數 Vidu Q3 上線華爲雲，打造“爲劇而生”的視頻生成方案

6 人團隊 48 小時搞定電影級長視頻！華科大自研AI平臺“愛烏”破解行業穿幫痛點

字節跳動開源Bernini框架：實現視頻生成與精準編輯的完美統一

PixVerse 完成 4.39 億美元 C 輪擴展融資估值飆升至 20 億美元