動画生成分野に大きなブレイクスルーが到来!Genmo社が最新の動画生成モデルMochi1を大々的にオープンソース化し、動画生成分野の新たな基準を打ち立てました。Mochi1は革新的なAsymmetric Diffusion Transformer(AsymmDiT)アーキテクチャを採用し、100億個ものパラメータを誇り、公開された動画生成モデルとしては最大規模です。
さらに重要なのは、完全にゼロからトレーニングされており、シンプルで修正可能なアーキテクチャであるため、オープンソースコミュニティの開発者にとって非常に便利です。
Mochi1最大のハイライトは、その卓越したモーションクオリティとテキストプロンプトへの正確な追従性です。最大5.4秒、30fpsの高フレームレートの滑らかな動画を生成でき、時間の一貫性とリアルな動きは驚くべきものです。
Mochi1は流体力学や毛髪シミュレーションなど、様々な物理現象をシミュレートすることもでき、生成される人物の動きは自然で滑らかで、実写に匹敵するほどです。
開発者の利便性のために、Genmo社は動画VAEもオープンソース化しました。これにより、動画を元のサイズの1/128に圧縮でき、モデルの計算量とメモリ消費量を効果的に削減できます。
AsymmDiTアーキテクチャは、マルチモーダル自己注意機構を通じて、ユーザーのプロンプトと圧縮された動画トークンを効率的に処理し、各モダリティに対して個別のMLP層を学習することで、モデルの効率と性能をさらに向上させています。
Mochi1の公開は、オープンソース動画生成分野における重要な一歩を意味します。Genmo社は、年末までに720p動画生成に対応したMochi1HDを含むMochi1の完全版をリリースすると発表しており、その際の動画の忠実度と滑らかさはさらに向上する予定です。
より多くの人にMochi1の強力な機能を体験してもらうため、Genmo社は無料のホスト型プレイグラウンドを提供しており、genmo.ai/playで体験できます。Mochi1のウェイトとアーキテクチャはHuggingFaceプラットフォームでも公開されており、開発者はダウンロードして使用できます。
Genmo社は、DDPM、DreamFusion、Emu Videoなどのプロジェクトの中心メンバーによって設立され、アドバイザーチームにはDatabricksとAnyscaleの執行会長兼共同設立者であるIon Stoica氏、Covariantの共同設立者兼OpenAIの初期チームメンバーであるPieter Abbeel氏、そして言語モデルシステムの先駆者でありTuriの共同設立者であるJoey Gonzalez氏など、業界のリーダーが含まれています。
Genmo社の使命は、汎用人工知能の右脳を開放することです。Mochi1は、あらゆるもの(可能であろうとなかろうと)を想像できる世界シミュレータを構築するための第一歩です。
Genmo社は最近、NEAをリードインベスターとするシリーズAラウンドで2840万ドルの資金調達を完了しており、今後の研究開発に十分な資金が確保されています。
Mochi1は目覚ましい成果を上げていますが、依然としていくつかの限界があります。例えば、初期バージョンでは現在480pの動画しか生成できず、極端な動きのある場面ではわずかな歪みや歪みが発生する可能性があります。また、Mochi1は現在、フォトリアルなスタイルに最適化されているため、アニメーションコンテンツでのパフォーマンスは向上させる必要があります。
Genmo社は、Mochi1の改善を続け、コミュニティによるモデルの微調整を奨励して、様々な美的嗜好に対応していくとしています。同時に、プレイグラウンドでは強力な安全審査プロトコルを実施し、すべての動画生成が倫理規範に準拠することを保証しています。
モデルダウンロード:https://huggingface.co/genmo/mochi-1-preview
オンライン体験:https://www.genmo.ai/play
公式紹介:https://www.genmo.ai/blog