簡単なハミングやリズムの敲打だけで、AIが高品質な音楽や効果音を生成できる時代が到来しました。これはもはや空想ではありません。Sketch2Soundと呼ばれる革新的な研究成果は、新しいAIモデルを提示しています。このモデルは、音声模倣とテキストプロンプトを用いて高品質なオーディオを生成し、サウンドクリエーションの分野に革命的な進歩をもたらします。
Sketch2Soundの中核技術は、あらゆる音声模倣(人の声の模倣や参照音など)から、時間とともに変化する3つの重要な制御信号:ラウドネス、明るさ(スペクトルセントロイド)、ピッチを抽出できる点にあります。これらの制御信号はエンコードされ、テキスト音声生成の潜在拡散モデルに追加され、AIが特定の要件を満たす音を生成するよう導きます。
この技術の最も称賛すべき点は、その軽量性と効率性です。Sketch2Soundは既存のテキスト音声潜在拡散モデルを基盤としており、4万ステップの微調整だけで済みます。また、各制御信号には線形層が1つだけで済み、ControlNetなどの他の方法よりもシンプルで効率的です。モデルが「スケッチ」のような音声模倣から合成できるようにするため、研究者たちはトレーニング中に制御信号にランダムなメディアンフィルタを適用し、柔軟な時間特性を持つ制御信号に対応できるようにしました。実験結果によると、Sketch2Soundは入力制御信号に一致する音を合成できるだけでなく、テキストプロンプトにも従い、純粋なテキストベースラインと同等のオーディオ品質を達成します。
Sketch2Soundは、サウンドアーティストに全く新しい創作方法を提供します。テキストプロンプトのセマンティックな柔軟性と、音声ジェスチャーや模倣の表現力と正確性を組み合わせることで、かつてないサウンド作品を生み出すことができます。これは、伝統的なフォーリーアーティストが物体を操作して効果音を作ることに似ていますが、Sketch2Soundは音声模倣によってサウンド生成を導き、「人間味」のある感触を与え、サウンド作品の芸術性を高めます。
従来のテキスト音声インタラクション方式と比較して、Sketch2Soundはその限界を克服することができます。これまで、サウンドデザイナーは生成されたサウンドの時間特性を調整し、視覚効果と同期させるために多くの時間を費やす必要がありましたが、Sketch2Soundは音声模倣によって自然にこの同期を実現できます。そして、人の声の模倣に限定されず、あらゆる種類の音声模倣がこの生成モデルを駆動するために使用できます。
研究者たちは、トレーニング中に異なるウィンドウサイズのメディアンフィルタを適用して制御信号の時間的な詳細を調整する技術も開発しました。これにより、サウンドアーティストは生成モデルが制御信号の時間精度に従う度合いを制御できるようになり、完璧に模倣することが難しい音の質を高めることができます。実際の応用では、ユーザーはメディアンフィルタのサイズを調整することで、音声模倣の厳格な遵守とオーディオ品質の確保のバランスを取ることができます。
Sketch2Soundの動作原理は、まず入力オーディオ信号からラウドネス、スペクトルセントロイド、ピッチの3つの制御信号を抽出することです。次に、これらの制御信号をテキスト音声モデルの潜在信号とアラインし、単純な線形投影層を通して潜在拡散モデルを調整し、最終的に要求を満たす音を生成します。実験結果によると、時間変化する制御信号でモデルを調整することで、その信号への遵守度を大幅に向上させることができ、同時にオーディオ品質とテキスト遵守度への影響はごくわずかです。
注目すべきは、研究者たちは制御信号が生成信号のセマンティクスを操作できることを見出したことです。「森の雰囲気」というテキストプロンプトを使用する場合、音声模倣にランダムなラウドネスのバーストを加えると、モデルはこれらのラウドネスのバーストの中で鳥の鳴き声を合成することができます。「鳥」という追加のプロンプトは必要ありません。これは、モデルがラウドネスのバーストと鳥の存在の間の関連性を学習したことを示しています。
もちろん、Sketch2Soundにもいくつかの限界があります。例えば、セントロイド制御は、入力音声模倣のルームトーンを生成オーディオに混ぜ込む可能性があります。これは、入力オーディオにサウンドイベントがない場合、ルームトーンがセントロイドによってエンコードされるためです。
総じて、Sketch2Soundは強力なサウンド生成モデルであり、テキストプロンプトと時間変化する制御(ラウドネス、明るさ、ピッチ)によってサウンドを生成できます。音声模倣と「スケッチ」のような制御曲線によってサウンドを生成でき、軽量で効率的であるため、サウンドアーティストに制御可能で、ジェスチャー豊かで表現力豊かなツールを提供し、柔軟な時間特性を持つ任意のサウンドを生成できます。音楽制作、ゲーム効果音設計などの分野で幅広い応用が期待されます。