最近、バイトダンスはPersonaTalkというAIモデルを開発しました。このモデルは、動画に正確に音声吹き替えをすることができます。

この技術は、音声と口の動きを完璧に同期させるだけでなく、新しい動画を作成する際に、人物の元の話し方、顔の特徴、表情を維持することができ、動画をより自然でリアルに見せることができます。

PersonaTalkの主要機能:

  • 音声と口の動きの同期:PersonaTalkは、動画に新しい音声を追加する際に、人物の口の動きと新しい音声の口の形を完全に一致させることができます。つまり、動画中の人物が話したり、笑ったり、その他の表情をしたりする場合でも、唇の動きは新しい音声と完璧に同期し、まるで実際にその言葉を話しているかのように見えます。

  • 人物の特徴の維持:新しい動画コンテンツを作成する際、PersonaTalkは、話し方、顔の形、表情など、動画中の人物の元の特性を可能な限り維持します。この個性的な特徴を維持する能力により、PersonaTalk技術を使用して生成された動画は、高いリアリティと自然さを維持し、硬直したり不自然になったりするのを防ぎます。

  • 様々な人物への適用:従来の音声吹き替え技術とは異なり、PersonaTalkは、特定の人物を個別にトレーニングするために大量のデータは必要ありません。そのため、この技術は様々な人物や状況に適応でき、動画制作に柔軟性と利便性を提供します。

PersonaTalkは、アテンションメカニズムに基づいた2段階のフレームワークで、幾何学的構造と顔のレンダリングの2つの部分で構成されています。第1段階では、混合幾何推定法を使用して、参照動画から話者の顔の幾何学的係数を抽出します。

次に、目標音声から音声特徴を抽出してエンコードし、幾何学的統計特徴から個性的な話し方を学習し、それを音声特徴に注入します。参照動画の幾何学的係数と目標音声に基づいて、目標音声の口の動きと同期し、個性的な話し方を維持した目標幾何学的形状を生成します。

QQ20241028-090912.jpg

第2段階では、二重アテンションメカニズムの顔レンダラを使用して目標話者の顔を合成し、慎重に設計された参照選択戦略を使用して、目標幾何学的形状の口の動きと同期した顔を生成します。

このモデルは、参照動画から話者の話し方を学習し、それを目標音声の吹き替えに適用することで、高度にパーソナライズされた吹き替え効果を実現します。さらに、二重アテンションメカニズムの顔レンダラを採用しており、唇と顔の他の領域を個別にテクスチャサンプリングすることで、顔の細部をより適切に維持し、一般的な歯のちらつきや粘着アーティファクトを除去します。

実験結果によると、他の最先端のモデルと比較して、PersonaTalkは、視覚的な品質、口の動きの同期精度、人物の個性維持の点で顕著な優位性を持っています。

また、汎用モデルとして、PersonaTalkは、微調整なしで特定の人物モデルと同等の性能を実現します。

PersonaTalkは顔動画の吹き替えにおいて顕著な成果を上げていますが、トレーニングデータの限界により、非人間のアバター(漫画キャラクターなど)を駆動する際の性能はやや低く、大きな顔の姿勢を処理する際にアーティファクトが発生する可能性があります。

この技術の悪用を防ぐため、バイトダンスはコアモデルへのアクセス権を研究機関のみに制限する予定です。

プロジェクトアドレス:https://grisoon.github.io/PersonaTalk/