WAIC2025世界人工智能大会で、Shengshu TechnologyはVidu Q1の「リファレンスビデオ」機能を発表し、アルゴリズムの革新により伝統的な動画制作プロセスを完全に変革し、動画生成分野に画期的な進展をもたらしました。

カット割りのない一括出力の動画

「リファレンスビデオ」の最大の特徴は、複雑な前段階のカット割り作業を省略することです。ユーザーは人物、小物、シーンなどのリファレンス画像をアップロードし、テキストの指示に従うだけで、直接完成した動画素材を作成できます。制作プロセスは従来の「カット割り生成→動画生成→編集→完成」から「リファレンス画像→動画生成→編集→完成」に簡略化されました。

例えば、「孔明がチャーチルやナポレオンと会議室で議論する」という指示文を入力し、3人の歴史的人物のリファレンス画像と会議室のシーン画像をアップロードすれば、システムは三人が共に登場して会話する完全な動画を生成します。

人間化されたウサギ クラリネット演奏 アニメ映画

商業化の核心的課題を解決

この機能の核心的な利点は、動画モデルの商業化において重要なブロックである「主体の一貫性」問題を解決することです。現在のVidu Q1のリファレンスビデオは、最大で7つの主体を同時に入力し、一貫性を保つことが可能です。生数科技によると、これで大部分の創作シナリオのニーズを満たすことができるといいます。

生数科技のCEOである Luo Yihang は、「このような一般的な創作方法は、広告、アニメ、映画、観光、教育など多様な商業シーンをより良くサポートし、現地撮影からオンラインAI創作への本質的な転換を実現するだろう」と述べました。

技術アプローチと産業指向

生数科技はU-ViTアーキテクチャを使用し、拡散モデルとTransformer技術を組み合わせ、その上でのアルゴリズムモジュールを最適化しています。Viduモデルにはマルチモーダル理解能力が内蔵されており、すでに動画生成に応用されています。

Luo Yihang は強調し、「チームは産業への実装を主な目的としており、理解と生成の一体化は優先順位ではない」と語りました。「業界の顧客は技術ルートよりもコンテンツの効果を重視している」。

身体知能の新領域を開拓

7月25日、清华大学と生数科技は共同で身体知能モデルのVidarを発表しました。「ビデオ大規模モデル+身体知能」のアプローチにより、低コストかつ少量のサンプルで汎化を実現しました。

Luo Yihang は説明し、「ビデオモデルと身体知能は本質的に時間空間情報を処理し、同じ入力決定論理を採用している。チームはViduビデオ大規模モデルに基づき、わずかなロボット操作のビデオでトレーニングを行い、仮想ビデオを対応するロボットアームの動作に変換することが可能で、伝統的なVLAルートにおけるデータの不足問題を効果的に解決する」と述べました。