今日、メイドゥーのLongCatチームは、新しくビデオ生成モデル「LongCat-Video」を正式にリリースしました。このモデルは、現実世界の動作状態を正確に再構築する能力があり、メイドゥーが「世界モデル」分野で重要な進展を遂げたことを示しています。世界モデルは次の世代の人工知能の核心的なエンジンであり、AIが現実世界の動的性をよりよく理解し、予測し、再構築するのに役立ちます。

QQ20251027-102541.png

LongCat-Videoは、高度なDiffusion Transformer(DiT)アーキテクチャに基づいており、テキストからビデオ生成、画像からビデオ生成、およびビデオの継続生成などの主要機能を統合しています。この革新モデルは、「条件付きフレーム数」の設定により、タスクの柔軟な区別を効果的に実現し、異なる入力条件下でも優れた生成能力を発揮します。LongCat-Videoはテキストからビデオ生成において720p、30fpsの高精細ビデオを出力でき、オープンソース分野で先進的な意味理解と視覚的表現能力を持っています。また、画像からビデオ生成では、動的なプロセスにおいて参照画像の属性とスタイルを厳密に保持し、自然で滑らかな動きを示します。

最も注目すべきは、LongCat-Videoの長時間ビデオ生成能力です。このモデルは、ビデオの継続生成タスクの事前学習を通じて、5分間の連続的な長時間ビデオを安定して出力でき、一般的な色調の変化や画質の低下、動作の断絶などの問題を回避します。この技術的突破は、ビデオ生成の品質を向上させ、自動運転や身体知能などの深くインタラクティブなシナリオに堅固な技術的基盤を提供します。

効率的な推論において、LongCat-Videoは「2段階の粗い生成から精緻な生成」戦略を採用しており、ブロックスパースアテンション(BSA)とモデル蒸留最適化を組み合わせ、ビデオ生成の速度と品質を大幅に向上させています。このモデルの推論速度は10.1倍に向上し、長時間のビデオを処理しても優れた生成品質を維持できます。

LongCat-Videoは、厳格な内部および公開ベンチマークテストを経て、テキストの整合性、視覚的品質、運動的品質などの多方面で優れた性能を示し、総合的な能力は現在のオープンソース分野でのSOTA(State of the Art)レベルに達しています。チームは、LongCat-Videoのリリースが長時間ビデオの創作プロセスを大きく簡素化し、クリエイターが1秒間のインスピレーションから5分間の完成品へと飛躍できると述べています。

この高度な技術を多くの人に体験してもらうために、メイドゥーはGitHubとHugging FaceでLongCat-Videoの関連リソースを公開しています。このプロジェクトは、個人クリエイターに強力なツールを提供し、ビデオ制作業界全体に新しい活力を注入しています。