最近、バイトダンスがSeed-Musicという新しい音楽制作ツールをリリースしました。この驚くべき音楽生成モデルは、テキスト記述、オーディオ参照、楽譜、さらには音声指示など、様々な入力方法で簡単に音楽を生成でき、まるで魔法の音楽師を持っているかのようです!
Seed-Musicは自己回帰言語モデルと拡散モデルを組み合わせることで、高品質な音楽作品を生成するだけでなく、音楽の細部を正確に制御することもできます。歌詞に合わせた作曲でも、メロディーの編曲でも、何でも可能です。さらに、短い音声片段をアップロードすれば、システムが自動的にそれを完全な歌声に変換してくれるので、便利で効率的です。
機能豊富なSeed-Musicは、ボーカルと器楽の生成をサポートするだけでなく、歌声合成、歌声変換、音楽編集など、様々な機能を備えており、様々なユーザーのニーズを満たすことができます。シンプルなテキスト記述でポップミュージックを生成することも、オーディオヒントで音楽スタイルを調整することも可能です。まさに目から鱗です。
さらに面白いのは、Seed-Musicのアーキテクチャが表現学習モジュール、生成モジュール、レンダリングモジュールの3つのモジュールに分かれていることです。これらのモジュールはオーケストラのように協力して、多様な入力から高品質な音楽を生成します。
表現学習モジュールは、元のオーディオ信号を3種類の中間表現に圧縮し、様々な音楽生成と編集タスクに適しています。生成モジュールは、自己回帰モデルと拡散モデルを使用して、ユーザーの入力を音楽表現に変換します。そして、最後のレンダリングモジュールは、これらの中間表現をあなたの耳で楽しめる高品質なオーディオに変換します。
音楽の品質を確保するために、Seed-Musicは自己回帰言語モデルによるオーディオ記号の段階的な生成、拡散モデルによるノイズ除去による音楽の明確化、そしてボコーダーによる音楽「コード」の再生可能な高忠実度サウンドへの変換など、様々な技術を採用しています。
Seed-Musicのトレーニングプロセスも興味深いもので、事前トレーニング、ファインチューニング、事後トレーニングの3つの段階に分かれています。大規模な音楽データを通じてモデルは基本的な能力を獲得し、ファインチューニングによって特定のタスクのパフォーマンスを向上させ、最後に強化学習によって生成結果を継続的に最適化します。
プロジェクトアドレス:https://team.doubao.com/en/special/seed-music