『The Information』の情報によると、人工知能の巨頭であるOpenAIは、ユーザーが提供するテキストの説明や音声のヒントをもとに音楽を作成できる新しい生成音楽ツールを開発中である。この動きは、テキストやビデオモデル(ChatGPTやSoraなど)で成功を収めたOpenAIが、今後マルチモーダルコンテンツ生成分野にさらに進出しようとしていることを示している。

機能の焦点:動画用BGMと正確な伴奏
関係者によると、この新ツールの潜在的な用途は広範囲かつ実用的であり、既存の動画にカスタマイズされた背景音楽を追加したり、既存の人声トラックに基づいてギターなどの楽器の伴奏を生成したりすることが可能だ。しかし現在のところ、OpenAIはこのツールのリリース計画については明確にしていない。これは独立製品としてリリースされるのか、それとも現行の主要製品であるChatGPTや動画生成アプリケーションのSoraに機能を統合するのかは未定である。
トレーニングデータの秘密:ジュリアード・スクールとの提携
新モデルのトレーニングデータの質と専門性を確保するために、関係者はOpenAIが有名なジュリアード・スクール(Juilliard School)の一部の学生と協力して、楽譜の詳細な注釈作業を行っていると述べている。これにより高品質なトレーニングデータの源が得られる。
OpenAIはChatGPTが登場する前に音楽生成モデルをリリースしたことがあるが、最近ではテキストから音声への変換や音声からテキストへの変換を行う音声モデルの開発に注力していた。今回の音楽生成への進出は、この分野の先駆者たちと競争することになる。現在、音楽生成モデルを持つ主な企業としては、グーグルなどのテクノロジー大手やスタートアップ企業のSunoなどが挙げられる。
