最近、Adobeの研究チームとミシガン大学の研究者らが共同で、映画や動画のサウンドエフェクトを生成するAIシステム「MultiFoley」を開発しました。これは、ポストプロダクションを支援するシステムです。
MultiFoleyの革新的な点は、テキストプロンプト、参照オーディオ、またはビデオサンプルを使用してサウンドエフェクトを作成できる点です。デモでは、猫の鳴き声をライオンの咆哮に変換したり、タイプライターの音をピアノの音符に変換したり、ビデオ映像と完璧に同期させることもできました。
MultiFoleyのオーディオ出力品質は48kHzの高帯域幅を実現しており、これはインターネット上のビデオとプロフェッショナルなサウンドエフェクトライブラリを使用してトレーニングされたことが主な理由です。従来のシステムとは異なり、MultiFoleyはテキスト、オーディオ、ビデオ参照という複数の入力方法を初めて単一のモデルに統合しました。1秒間に8フレームの視覚的特徴を分析し、それを拡大して40Hzのオーディオサンプリングレートに合わせ、生成されたオーディオがビデオと緊密に同期するようにしています。
テストでは、MultiFoleyはオーディオとビデオの同期、およびサウンドエフェクトとテキストの説明の一致において優れた性能を示し、平均同期精度は0.8秒に達しました。これは、従来のシステムの通常1秒を超える遅延よりも大幅に優れています。ユーザー調査では、参加者の85.8%がMultiFoleyのセマンティックな一貫性において2番目に優れたシステムよりも優れていると評価し、94.5%の参加者がその同期効果を好ましいと評価しました。
MultiFoleyは大きな可能性を示していますが、研究チームは、トレーニングデータが比較的少ないためサウンドエフェクトの種類が制限されていることや、複数のサウンドエフェクトを同時に生成する際に困難があることなど、いくつかの課題も指摘しています。研究チームは、近日中にソースコードとモデルを公開する予定です。
AdobeはまだMultiFoleyを製品に組み込むことを発表していませんが、この技術はAdobe Premiere Proビデオ編集ソフトウェアの既存のAI機能と非常に相性が良く、個人クリエイターや制作会社の音響設計プロセスを簡素化すると期待されています。
要点:
🎬 MultiFoleyは、Adobeとミシガン大学が共同開発したAIサウンドエフェクト生成システムで、様々な入力方法でサウンドエフェクトを生成できます。
🔊 このシステムのオーディオ出力品質は48kHz、平均同期精度は0.8秒で、従来のサウンドエフェクトシステムよりも優れています。
📈 ユーザー調査によると、MultiFoleyはサウンドエフェクトのセマンティックな一貫性と同期効果において高い評価を得ています。