デジタル化の波が世界を席巻する現代において、バーチャルアバターは私たちの日常生活に欠かせないものとなっています。

しかし、画像から動画を生成し、それに口パクを合わせることをよく行うユーザーは、ある困った問題に直面しています。「人物」がどれだけリアルに生成されていても、口を開くとすぐに不自然さが露呈してしまうのです。

証明写真 (1)

画像出典:AI生成画像、画像ライセンス提供元Midjourney

簡単に言うと、音声と映像が完全に一致せず、音声はアバターのものではない、またはその状況下ではそのような音声が不自然だと、聴く人がすぐに気づいてしまうということです。

今、この厄介な問題を解決する技術が登場しました!

最近、LOOPYと呼ばれる革新的な技術が発表されました。これは、従来のバーチャルアバターアニメーションの限界を突破し、デジタルワールドに前例のない活気をもたらす技術です。

QQ20240905-174206.jpg

この技術の中核は、独自の長期運動情報捕捉モジュールにあります。LOOPYは様々な視覚的および音声的なスタイルに対応し、経験豊富な振付師のように、音声のリズムと感情に合わせて、バーチャルアバターの細かな動きを正確に「演出」します。例えば、ため息などの非音声的な動作、感情に基づいた眉毛や目の動き、自然な頭の動きなどです。

例えばこの動画では、テイラーが話す際の目の動きや首の動きが、私たちの期待に完璧に合致しています。彼女が話す様子を見ていると、自然と「彼女はこう話すのだろう」と感じます。人物が話す際の周囲の音や状況音も、全て「当然のこと」のように感じられます。

架空の人物に対しても、LOOPYは驚くべきパフォーマンスを見せています。歌手が歌っている時の繊細な表情、感情と同期した眉や目の動き、そして優しいため息に至るまで、LOOPYは完璧に表現します。

さらに驚くべきことに、同じ参照画像に対して、異なる音声に合わせて多様な動作効果を生成することもできます。情熱的なものから穏やかなものまで、あらゆる表現が可能です。この柔軟性により、クリエイターは無限の想像力を発揮できます。

実際の応用において、LOOPYは卓越した性能を示しています。複数の現実世界のデータセットでのテストを通じて、自然さで既存の音声駆動型肖像拡散モデルをはるかに凌駕し、様々な複雑な状況下でも高品質でリアルな結果を生成できることが実証されました。

特に、横顔の肖像画処理においても優れたパフォーマンスを発揮する点は注目に値し、バーチャルアバターの表現力をさらに高めるでしょう。

LOOPYの登場は、仮想世界に新たな扉を開くものです。ゲーム、映画制作、仮想現実などの分野で活躍し、ユーザーエクスペリエンスを向上させるだけでなく、クリエイターにもより広範な創作プラットフォームを提供します。技術の進歩に伴い、LOOPYの可能性はさらに広がり、将来のバーチャルアバター技術をリードする新たな基準となる可能性があります。

プロジェクトアドレス:https://loopyavatar.github.io/