OpenAIのSoraが世界を驚かせた後、アリババの研究チームが再び驚きの技術をもたらしました - 軌跡ベースの動画生成AI「Tora」です。これはAIによる動画制作に対する私たちの認識を静かに変えつつあります。

主な特徴:
高精細度:Toraで生成された動画の品質はプロの制作レベルに匹敵します。色彩、鮮明さ、滑らかさ、いずれも一流のレベルです。
モーションコントロール:Toraは動画内のあらゆる動きを正確に制御できます。高速な動きから微妙な変化まで、正確に表現します。
多様な入力:テキストによる説明、静止画、動的な軌跡など、あらゆるクリエイティブなニーズに対応できる柔軟な入力に対応します。
従来のU-Netアーキテクチャとは異なり、Toraはより高度なDiffusion Transformer(DiT)アーキテクチャを採用しています。この革新により、Toraは従来の動画生成における多くの制限を容易に克服し、最大60秒の長尺で高品質な動画を生成できるだけでなく、さまざまな解像度やアスペクト比にも柔軟に対応できます。さらに驚くべきことに、Toraで生成された動画の動きは滑らかで自然で、まるで現実世界の完璧な複製かのようです。
ワークフロー:
軌跡エンコーディング:Toraは提供された軌跡情報をエンコードし、理解できる形式に変換します。
モーションブロック生成:3D変分オートエンコーダ(VAE)を使用して、軌跡情報をモーションの潜在表現に圧縮します。
モーション融合:MGFはこれらのモーション情報をDiTブロックに融合し、軌跡に沿った動画を生成します。
Toraの最大の強みは、その独自の設計理念にあります。テキスト、ビジュアル、軌跡条件を見事に統合することで、動画コンテンツの正確な制御を実現しています。多くの実験を通じて、研究者たちはToraが、高いモーションの忠実度を維持しながら、物理世界の運動法則をきめ細かくシミュレートできることを確認しました。この画期的な成果は、将来の映画の特殊効果制作、仮想現実などの分野に無限の可能性をもたらすでしょう。
他の手法との比較において、Toraの優位性はさらに際立っています。生成された動画は滑らかさが向上しているだけでなく、事前に設定された軌跡に厳密に従うため、物体の変形などの一般的な問題を回避し、動画の忠実度を大幅に向上させています。この優位性は、長時間の高解像度動画生成において特に顕著であり、Toraの軌跡精度は他の手法の3~5倍にも達します。
以下は、AIbaseが厳選した公式デモ動画です:
プロンプト:静かな広角レンズが、微風の中でそっと揺れるひまわりを捉えています。背景には、夕日に染まった広大な黄金色の麦畑が広がっています。このシーンは、果てしない麦畑の中に高くそびえ立ち、夕日の温かいオレンジ色の光を浴びるひまわりの微妙な動きを強調しています。麦畑の黄金色の色合いは夕暮れの中でキラキラと輝き、風景に深みと豊かさをもたらしています。風が野原を吹き抜ける時、レンズはひまわりにとどまり、鮮やかな花びらと種子の複雑なディテールを際立たせています。この動画にはテキストや追加オブジェクトは一切なく、視聴者は静かな美しさ、そして自然と光の調和のとれたダンスに浸ることができます。
プロンプト:一枚の楓の葉が左から右へ優雅に舞い落ち、背景には静かな湖面が広がり、周囲には生き生きとした楓の木々が並んでいます。動画は、楓の葉の優雅な舞い落ちの様子を繊細なディテールで捉え、楓の葉の優しい動きと水面静止との鮮やかなコントラストを生み出しています。楓の葉が舞い落ちる様子は、静けさを感じさせます。動画は、この静かな瞬間に焦点を当て、余分なテキストやオブジェクトは一切なく、没入型の体験を生み出し、自然界における動と静の微妙なバランスを際立たせています。
プロンプト:一匹のフナが火星のような赤い岩肌の上を優雅に泳いでいます。動画は、フナの滑らかな動きに焦点を当て、驚くべき火星の風景との鮮やかなコントラストを描いています。水生生物と荒涼とした火星の地形の鮮やかな対比は、夢のような雰囲気を際立たせ、視聴者をこの超現実的なシーンへと誘います。余分なテキストやオブジェクトはなく、視聴者は要素の面白く意外な融合を存分に楽しむことができます。
プロンプト:一群のカモメが、色とりどりのサンゴ礁が広がる生き生きとした海底世界を優雅に飛び回っています。動画は、カモメが水中を飛ぶ超現実的な組み合わせを捉え、その滑らかな動きと周囲の豊かなサンゴとの鮮やかなコントラストを描いています。背景には、サンゴが揺らめく鮮やかな海の色のタペストリーが広がり、夢のような雰囲気を作り出しています。シーンには余分なテキストやオブジェクトはなく、視聴者は鳥の優雅さと水中の驚異の奇妙な調和の融合に完全に浸ることができます。
プロンプト:シャボン玉がそっと浮かび上がり、満開の野花の群れの中から上昇しています。動画は、シャボン玉の繊細さと虹のような自然を捉え、背景には美しい花々が咲いています。背景では色とりどりの野花がそっと揺らめき、シャボン玉の儚い美しさを際立たせています。シーンには余分なテキストやオブジェクトはなく、視聴者は静かで魅惑的な瞬間に完全に浸り、活気のある自然環境の中でシャボン玉の脆さと儚い魅力を際立たせています。
Toraの成功は、その優れた性能だけでなく、その裏にある技術革新にもあります。研究チームはOpenSoraのDiTアーキテクチャを巧みに組み合わせる一方で、軌跡抽出器(TE)やモーション誘導融合器(MGF)などの革新的なモジュールを導入しました。これらの精心設計されたコンポーネントにより、Toraは任意の軌跡を階層的な時空間モーションパッチとしてエンコードし、動画生成プロセスにシームレスに統合することができます。
実際の応用において、Toraは驚異的な安定性と適応性を示しています。16フレームの短い動画から、128フレームの長尺で複雑なシーンまで、Toraは優れたパフォーマンスを維持します。特に長時間のシーケンス生成において、Toraの優位性はより顕著であり、軌跡誤差の増加を効果的に制御し、生成された動画の高品質を維持します。
プロジェクトアドレス:https://top.aibase.com/tool/tora
