KlingAI Avatar 2.0がリリースと同時に大ヒット！5分でダンスと歌を一括生成デジタル人間は顔面麻痺時代を終える

AI動画生成分野で、画期的な突破が静かに訪れている。快手傘下にあるKlingAIは最近、デジタル人間モデル「Avatar2.0」を発表し、人物の写真と音楽のオーディオを入力するだけで、5分間の歌う映像をワンクリックで作成できるようになった。デジタル人間は硬直した「口パク」の操り人形ではなく、リズムに合わせて眉を上げたり、目を笑わせたり、体を揺らす「パフォーマー」として表現される。このアップグレードされたモデルは、Klingプラットフォームで正式にリリースされ、AIコンテンツ制作が「静的」から「動的な物語」への飛躍を示している。

コアの革新：音声から感情表現への知能的な飛躍

Avatar2.0の核は、マルチモーダル・ディレクター・モジュール（MLLM Director）であり、このモジュールはマルチモーダル大規模言語モデル（MLLMs）を統合し、ユーザーが入力する3つの要素—画像、音声、テキストのヒント—を一貫したストーリーに変換する。具体的には、システムはまず音声から音声内容と感情の軌跡を抽出し、例えば明るいメロディーでは「興奮」の感情を注入し、ラップのセクションでは鼓点のリズムに同期する。同時に、1枚の写真から人像特徴とシーンの要素を識別し、ユーザーのテキスト「カメラがゆっくり上に移動する」や「腕をリズミックに振る」などを組み込む。最終的に、テキストのクロス注力層を通じてビデオ拡散モデルに注入し、全体の一貫性を持つ「ブループリント動画」を生成し、全体のテンポがスムーズでスタイルが統一されていることを確保する。

前世代と比較すると、Avatar2.0は表情制御において質的な飛躍を遂げた：笑顔、怒り、疑問、強調などの感情が自然に現れ、初期のAIキャラクターの「面無し」感を避ける。動きの設計もより柔軟になり、頭部の唇同期（lip-sync）だけでなく、肩の動きやジェスチャーの強調など全身のパフォーマンスが音楽に完璧にマッチする。テストのベンチマークによると、375個の「参照画像–音声–テキストのヒント」の例において、このモデルは複雑な歌うシーンでの反応正確率が90％以上であり、真人、AI生成画像、さらには動物やアニメキャラクターにも対応している。

技術的支援：高品質なデータと2段階生成フレームワーク

分単位の長編映像を安定して出力するために、快手Klingチームは厳格なトレーニングシステムを構築した。彼らはスピーチ、会話、歌などのコーパスから数千時間のビデオを収集し、専門モデルを使って口元の明確さ、音画同期、芸術的品質などの多角的な観点から選別し、最終的に数百時間の高品質データセットを得るために人工による再確認を行った。生成フレームワークは2段階設計である：第1段階ではブループリントビデオに基づいて全体の意味を計画し、第2段階では最初と最後のフレームを条件として並列にサブセグメントのビデオを生成し、アイデンティティの一貫性と動的な連続性を確保する。

また、Avatar2.0は48fpsの超高フレームレートと1080pの高解像度出力をサポートし、アニメーションの滑らかさは業界平均を大幅に上回っている。ユーザーはKlingプラットフォーム（https://app.klingai.com/cn/ai-human/image/new）で無料で基本機能を試用でき、高級な長編ビデオはサブスクリプションプランが必要である。プラットフォームのデータによると、リリース初日には生成されたビデオ数が300％増加し、ユーザーのフィードバックは「感情がリアル」で「操作が簡単」という点に集中している。

応用の展望：ショートビデオとマーケティングエコシステムの再構築

このモデルの実装により、ショートビデオ、EC広告、教育コンテンツなどの分野に深い影響を与えることになるだろう。例えば、ポッドキャスターは純音声を視覚化されたパフォーマンスに変換し、YouTubeやTikTokの魅力を瞬時に高めることができる。EC販売者は商品写真と説明の音声をアップロードするだけで、多言語のプレゼンテーションビデオを作成でき、伝統的な撮影コストの1/10にまで低減する。音楽愛好家は「仮想コンサート」を実験することができる：Suno AIで生成されたメロディーを入力すれば、Avatar2.0がデジタル人間を「歌わせる」感染力のあるMVを作成し、複数人のインタラクティブなシナリオにも対応できる。

KlingAI Avatar 2.0がリリースと同時に大ヒット！5分でダンスと歌を一括生成デジタル人間は顔面麻痺時代を終える

関連推奨

NVIDIAがNemotron 3 Embedシリーズの8Bバージョンを発表し、RTEB検索基準でトップに立ちました

銀河コンピューターロボットの創設者王鶴：2028年、身体知能のChatGPTの時代がすぐそこに！

超低遅延AIチャットの魔法！Wan-Streamer v0.2でAIとのゼロ距離コミュニケーションを実現

文遠知行が物理AIの大規模モデルWITTをリリース

百度の沈抖：社員1人あたり月額1000元を支給し、主流の大規模モデルを自由に体験する。AIオフィスの強制導入は効果がない

KlingAI Avatar 2.0がリリースと同時に大ヒット！5分でダンスと歌を一括生成 デジタル人間は顔面麻痺時代を終える

関連推奨

NVIDIAがNemotron 3 Embedシリーズの8Bバージョンを発表し、RTEB検索基準でトップに立ちました

銀河コンピューターロボットの創設者王鶴：2028年、身体知能のChatGPTの時代がすぐそこに！

超低遅延AIチャットの魔法！Wan-Streamer v0.2でAIとのゼロ距離コミュニケーションを実現

文遠知行が物理AIの大規模モデルWITTをリリース

百度の沈抖：社員1人あたり月額1000元を支給し、主流の大規模モデルを自由に体験する。AIオフィスの強制導入は効果がない

KlingAI Avatar 2.0がリリースと同時に大ヒット！5分でダンスと歌を一括生成デジタル人間は顔面麻痺時代を終える