Google DeepMindは、動画から音声を作成する技術「V2A」を発表しました。V2Aは、動画のピクセルとテキストプロンプトを使用して豊かなサウンドトラックを生成し、無音動画に音楽などを加えることで、視覚と聴覚の同期を実現します。

image.png

製品へのアクセス:https://top.aibase.com/tool/deepmind-v2a

ユーザーは、「肯定的プロンプト」または「否定的プロンプト」で音声出力を制御し、サウンドトラック制作を精密に調整できます。V2Aシステムは、自己回帰と拡散モデルを用いて、動画と同期したリアルな音声出力を実現します。トレーニング過程では、AI生成の注釈を使用して、特定の音声イベントと視覚シーンの関係をモデルが理解するよう支援します。

動作原理:

V2Aシステムはまず、動画を入力として圧縮表現にエンコードします。次に、拡散モデルが反復的にランダムノイズから音声を抽出します。このプロセスは、視覚入力と提供された自然言語プロンプトによってガイドされ、プロンプトに沿った同期性とリアルな音声が生成されます。最後に、音声出力はデコードされ、音声波形に変換され、動画データと結合されます。

image.png

V2Aシステム図。動画ピクセルと音声プロンプトを入力として、基となる動画と同期した音声波形を生成します。まず、V2Aは動画と音声プロンプト入力をエンコードし、拡散モデルで反復処理を実行します。次に、圧縮された音声を生成し、それを音声波形にデコードします。

より高品質の音声生成と、特定の音を生成するモデルの誘導能力を高めるために、音声の詳細な説明や口頭での会話記録を含むAI生成の注釈がトレーニング過程に追加されました。

動画、音声、追加注釈を用いたトレーニングにより、この技術は特定の音声イベントと様々な視覚シーンを関連付けることを学習し、注釈や記録で提供された情報にも対応します。

V2Aの機能:

  • 音声生成:V2Aは動画の映像とユーザーが提供したテキストの説明に基づいて、ドラマチックな音楽、リアルな効果音、または動画の人物やトーンに合わせたセリフなど、同期したサウンドトラックを自動生成します。

  • 同期音声:自己回帰と拡散モデルを用いて音声を生成し、生成された音声が動画の内容と完全に同期し、リアルな音声出力を実現します。

  • 多様なサウンドトラック:ユーザーは無限の数のサウンドトラックを生成し、様々な効果音の組み合わせを試して、動画の内容に最適なサウンドを見つけることができます。

  • プロンプト制御:「肯定的プロンプト」または「否定的プロンプト」を定義することで、音生成を誘導し、出力に対する制御性を高め、不要な音を回避できます。

  • トレーニングにおける注釈の使用:トレーニング過程では、AI生成の注釈を使用して、特定の音声イベントと視覚シーンの関係をモデルが理解するよう支援します。

音声生成の品質向上のため、研究チームはトレーニング過程に、音声の説明や口頭での会話記録を含むAI生成の注釈などのより多くの情報を導入しました。このような豊富な情報によるトレーニングにより、技術は動画の内容をより適切に理解し、視覚シーンに合った音声効果を生み出すことができます。

しかし、現在もいくつかの課題が残っており、チームは音声を含む動画の口パクの改善に取り組んでいます。V2Aは入力された転写テキストに基づいて音声を生成し、それをキャラクターの口の動きと同期させようと試みます。しかし、ペアの動画生成モデルは転写テキストを条件としない可能性があります。これにより不一致が生じ、通常、動画モデルが転写テキストに一致する口の動きを生成しないため、奇妙な口パクにつながります。

一般公開の前に、V2A技術は厳格な安全評価とテストを受けます。以下はV2Aで生成されたいくつかの音声吹き替えの例です:

1.音声プロンプト:狼が月に吠える

2.音声プロンプト:映画、スリラー、ホラー、音楽、緊張感、雰囲気、コンクリートの上を歩く音

3.音声プロンプト:コンサート会場のドラマーが、まばゆい光と歓声に包まれている

4.音声プロンプト:かわいい小さな恐竜の鳴き声、ジャングルの雰囲気、卵が割れる音

注:本文の動画はすべてGoogle公式のサンプルです。