アリババ傘下の通義万相ビデオ生成モデルが大幅にアップグレードされ、最新の2.1バージョンが登場しました。このバージョンは高速版とプロ版の2種類があり、それぞれ効率性と表現力に重点を置いており、AIビデオ生成に新たなブレークスルーをもたらしています。

image.png

今回のアップグレードで最も注目すべき点は、複雑な動き処理と現実的な物理法則の再現における著しい進歩です。特に、ビデオの映画のような質感の向上と指示の遵守能力の最適化において顕著です。新しいモデルにより、AIアート制作の可能性が大幅に広がり、ユーザーにより多くの創作空間を提供します。

実際の使用例では、通義万相の性能は非常に素晴らしいです。例えば、猫がキュウリを切る様子を生成させたところ、猫が台所でキュウリを切る様子がスムーズに表現され、包丁がゆっくりとキュウリに当たり、キュウリの切れ端が落ちる様子まで見事に再現されました。ディテールは以前のビデオ生成モデルよりも格段に向上しています。

さらに、通義万相の最新バージョンは、従来のAIビデオ生成でよくある「おかしな絵」の問題を解決し、初めて中国語と英語のテキストの正確な生成を実現しました。例えば、猫がキーボードの前に座ってタイピングし、画面に「ご飯がない」という字幕が表示されるなど、ユーモラスな表現も可能です。様々なシーンで特殊効果文字を適用することもでき、ビデオにより多くの創造性を加えることができます。

複雑な人物の動きに関しても、通義万相は強力な能力を発揮します。スキーをする少女や走る男性など、動きは滑らかで自然であり、現実的な物理法則に従っています。AIで生成されたビデオは、画面が鮮やかでディテールがリアルなだけでなく、説得力のある動きをシミュレートすることもできます。

image.png

特筆すべきは、今回のアップグレードにより、通義万相のカメラワークが映画監督のようなレベルに達したことです。簡単な指示を入力するだけで、システムが自動的にカメラアングルを調整し、フォーカスやズームなどの効果を生み出し、ビデオの芸術性を大幅に向上させます。例えば、ロックバンドの演奏シーンでは、カメラのズームによってギタリストの表情が強調され、まるでライブ会場にいるかのような臨場感を味わえます。

通義万相2.1バージョンの大幅なアップグレードは、ビデオ生成技術のレベルを高めただけでなく、ユーザーにより豊かな創作ツールを提供し、AIビデオ生成技術の新たな章を開きました。

公式サイト:https://tongyi.aliyun.com/wanxiang/videoCreation