SF映画で主人公が魔法の杖を振るって自在に音を操るシーンを覚えていますか?今、そんな魔法のような能力が現実のものとなりました!NVIDIAが最新発表したAIモデルFugattoは、「音の魔法の杖」のようなもので、ユーザーはテキストだけで音楽、音、音声などを操り、様々な素晴らしい聴覚効果を生み出すことができます。
Fugatto、正式名称は「Foundational Generative Audio Transformer Opus1」は、生成AI技術に基づいたオーディオ処理モデルです。音楽制作や音声修正しかできない他のAIモデルとは異なり、Fugattoはより強力な能力を持ち、あらゆる音楽、音声、音の混合体を生成または変換でき、テキストや音声ファイルから入力された指示を理解して実行することができます。
Fugattoの強力な機能は、音楽プロデューサー、広告会社、言語学習ツール開発者、ゲーム開発者など、あらゆる業界のユーザーを驚かせています。音楽プロデューサーは、様々な音楽スタイル、ボーカル、楽器を素早く試したり、既存の曲に効果を追加したり、音質を向上させたりすることができます。広告会社は、広告のナレーションに様々なアクセントや感情を加え、簡単に異なる地域やターゲット層に広告を展開することができます。言語学習ツール開発者は、家族や友人など、ユーザーが望む声に学習内容を変換し、よりパーソナライズされた学習を可能にします。ゲーム開発者は、ゲームの進行に合わせてゲーム内のサウンド素材をリアルタイムで変更したり、テキスト指示と音声入力から新しいゲームサウンドを作成したりすることができます。
Fugattoの驚くべき点は、人間のように音声を理解し生成できることです。ユーザーからの具体的な指示を実行するだけでなく、これまでにない新しい音も生み出すことができます。例えば、トランペットに犬の鳴き声を、サックスに猫の鳴き声を出すことができます。ユーザーが描写できれば、Fugattoはそれを実現できます。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
Fugattoのもう一つの画期的な能力は、トレーニング中に個別に学習した指示を組み合わせ、より複雑な効果を生み出せることです。例えば、ユーザーは悲しい感情を込めたフランス語アクセントの音声を生成するように指示できます。さらに驚くべきことに、Fugattoはアクセントの強さや悲しい感情の強さなどを調整でき、ユーザーはまるでアーティストのように創作することができます。
Fugattoは、時間とともに変化する音も生成できます。例えば、遠くから近づいてくる嵐の音で、雷鳴が徐々に強くなり、遠くに消えていく様子などを表現できます。ユーザーは音の変化過程を正確に制御し、様々な生き生きとした効果音を作成できます。
Fugattoは、インド、ブラジル、中国、ヨルダン、韓国など世界中の研究者によって共同開発された成果です。多様な背景を持つチームのおかげで、Fugattoはより強力な多言語・多アクセント処理能力を備えています。
Fugattoの誕生は、NVIDIAが音声モデリング、オーディオコーディング、オーディオ理解などの分野で長年積み重ねてきた研究の成果です。25億個のパラメータを使用し、32個のNVIDIA H100 Tensor Core GPUを搭載したNVIDIA DGXシステムクラスタでトレーニングされました。
Fugattoの登場は、オーディオ処理技術が新たな時代に入ったことを示しています。音楽、映画、ゲーム、教育など様々な分野に無限の可能性をもたらし、さらに驚くべき聴覚体験を生み出すことを期待しましょう!
公式ブログ:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/