AI動画生成分野で、画期的な突破が静かに訪れている。快手傘下にあるKlingAIは最近、デジタル人間モデル「Avatar2.0」を発表し、人物の写真と音楽のオーディオを入力するだけで、5分間の歌う映像をワンクリックで作成できるようになった。デジタル人間は硬直した「口パク」の操り人形ではなく、リズムに合わせて眉を上げたり、目を笑わせたり、体を揺らす「パフォーマー」として表現される。このアップグレードされたモデルは、Klingプラットフォームで正式にリリースされ、AIコンテンツ制作が「静的」から「動的な物語」への飛躍を示している。

コアの革新:音声から感情表現への知能的な飛躍
Avatar2.0の核は、マルチモーダル・ディレクター・モジュール(MLLM Director)であり、このモジュールはマルチモーダル大規模言語モデル(MLLMs)を統合し、ユーザーが入力する3つの要素—画像、音声、テキストのヒント—を一貫したストーリーに変換する。具体的には、システムはまず音声から音声内容と感情の軌跡を抽出し、例えば明るいメロディーでは「興奮」の感情を注入し、ラップのセクションでは鼓点のリズムに同期する。同時に、1枚の写真から人像特徴とシーンの要素を識別し、ユーザーのテキスト「カメラがゆっくり上に移動する」や「腕をリズミックに振る」などを組み込む。最終的に、テキストのクロス注力層を通じてビデオ拡散モデルに注入し、全体の一貫性を持つ「ブループリント動画」を生成し、全体のテンポがスムーズでスタイルが統一されていることを確保する。
前世代と比較すると、Avatar2.0は表情制御において質的な飛躍を遂げた:笑顔、怒り、疑問、強調などの感情が自然に現れ、初期のAIキャラクターの「面無し」感を避ける。動きの設計もより柔軟になり、頭部の唇同期(lip-sync)だけでなく、肩の動きやジェスチャーの強調など全身のパフォーマンスが音楽に完璧にマッチする。テストのベンチマークによると、375個の「参照画像–音声–テキストのヒント」の例において、このモデルは複雑な歌うシーンでの反応正確率が90%以上であり、真人、AI生成画像、さらには動物やアニメキャラクターにも対応している。
技術的支援:高品質なデータと2段階生成フレームワーク
分単位の長編映像を安定して出力するために、快手Klingチームは厳格なトレーニングシステムを構築した。彼らはスピーチ、会話、歌などのコーパスから数千時間のビデオを収集し、専門モデルを使って口元の明確さ、音画同期、芸術的品質などの多角的な観点から選別し、最終的に数百時間の高品質データセットを得るために人工による再確認を行った。生成フレームワークは2段階設計である:第1段階ではブループリントビデオに基づいて全体の意味を計画し、第2段階では最初と最後のフレームを条件として並列にサブセグメントのビデオを生成し、アイデンティティの一貫性と動的な連続性を確保する。
また、Avatar2.0は48fpsの超高フレームレートと1080pの高解像度出力をサポートし、アニメーションの滑らかさは業界平均を大幅に上回っている。ユーザーはKlingプラットフォーム(https://app.klingai.com/cn/ai-human/image/new)で無料で基本機能を試用でき、高級な長編ビデオはサブスクリプションプランが必要である。プラットフォームのデータによると、リリース初日には生成されたビデオ数が300%増加し、ユーザーのフィードバックは「感情がリアル」で「操作が簡単」という点に集中している。
応用の展望:ショートビデオとマーケティングエコシステムの再構築
このモデルの実装により、ショートビデオ、EC広告、教育コンテンツなどの分野に深い影響を与えることになるだろう。例えば、ポッドキャスターは純音声を視覚化されたパフォーマンスに変換し、YouTubeやTikTokの魅力を瞬時に高めることができる。EC販売者は商品写真と説明の音声をアップロードするだけで、多言語のプレゼンテーションビデオを作成でき、伝統的な撮影コストの1/10にまで低減する。音楽愛好家は「仮想コンサート」を実験することができる:Suno AIで生成されたメロディーを入力すれば、Avatar2.0がデジタル人間を「歌わせる」感染力のあるMVを作成し、複数人のインタラクティブなシナリオにも対応できる。
