中国Z.com(ChinaZ.com)6月17日 消息:Halloは、単一の画像と音声入力から歌ったり話したりする動画を生成し、動画内の人物の表情や姿勢も制御できる技術です。この技術は、拡散モデルに基づいた階層的音声駆動型ビジュアル合成手法を採用しており、音声入力と生成アニメーション間の精度向上、特に唇の動き、表情、姿勢の同期を目的としています。

主な機能:

  • バーチャルキャラクターアニメーション生成:音声入力から、リアルでダイナミックなバーチャルキャラクターアニメーションを生成し、口パク、表情、姿勢の正確な同期を実現します。

  • 実写キャラクターアニメーション生成:この技術を実写人物に適用することで、人物の表情や動作の変化を正確に反映したアニメーションを生成できます。

  • 多様なモーション制御:キャラクターの表情、姿勢、唇の動きを正確に制御でき、様々な表情や姿勢への適応制御に対応し、アニメーションの多様性とリアルさを向上させます。

  • クロスアクター対応:様々なキャラクターの個性的なアニメーション生成に対応し、音声入力から、それぞれのキャラクターに適したアニメーション効果を生成します。

  • 歌唱アニメーション生成:音声や楽曲の音声入力から、同期した歌唱アニメーションを生成し、歌唱時の口パクや表情の変化を正確に反映します。

この技術は、音声入力から人物の唇の動き、表情の変化、姿勢の変化を伴うアニメーションを生成し、音声と生成アニメーション間の整合精度を高め、アニメーションの唇の動き、表情、姿勢を音声とより一致させます。高度な技術と構造を採用することで、アニメーション生成のリアルタイム性と視覚効果が向上し、よりリアルで自然なアニメーションが生成されます。

この研究成果は、学術的な革新性だけでなく、エンターテインメント、教育、バーチャルアシスタント、その他のマルチメディア分野など、実用的な応用においても大きな可能性を秘めています。この技術により、ユーザーはより直感的で生き生きとした方法でバーチャルキャラクターとインタラクトし、より豊かでリアルな体験を楽しむことができます。

プロジェクトアドレス:https://top.aibase.com/tool/hallo