Stability AIは最近、最新の音声生成モデルであるStable Audio2.5をリリースしました。このモデルは、プロのサウンドエフェクト制作にさらに効率的なソリューションを提供することを目的としています。このモデルの設計意図は、クリエイティブチームが高品質でカスタマイズ可能な音声作品を迅速に生成し、市場における音声コンテンツへの需要に応えることです。

image.png

Stable Audio2.5の最大の特徴は、より複雑な生成能力であり、インロード、展開、エンディングを含むマルチパートの音楽作品を作成できます。Stability AIによると、新しいモデルは感情のヒント、例えば「励ますような」や特定の音楽スタイルのヒント、例えば「豊かなシンセサイザー音」に正確に対応できます。ユーザーは数秒で最長3分間の音楽曲を生成でき、Nvidia H100 GPUで処理時間は2秒未満になります。

この新モデルの速度は、後期トレーニング手法である対抗的相対的コントラスト(Adversarial Relativistic-Contrastive、略称ARC)により実現されています。この技術は会社の研究チームによって開発されました。Stability AIは今年5月、スマートフォン用のコンパクト版もリリースしており、これもARC方法を使用しています。Stable Audio Open Smallモデルはモバイルデバイス上で最大11秒のステレオ音声を生成でき、わずか7秒で完了します。

機能面では、Stable Audio2.5の主要なアップデートは音声補完(audio inpainting)機能です。ユーザーは自身の音声ファイルをアップロードし、スタートポイントを選択することで、AIに後続の内容を生成させ、既存の録音を完了または拡張できます。また、テキストのヒントを使って音楽を生成することもできます。注意すべき点は、アップロードされたファイルは著作権のないものでなければならないということです。Stability AIは先進的な識別システムを通じて著作権の適合性を確保しています。以前のバージョンと同様に、Stable Audio2.5はすでにライセンス取得済みのデータセット上でトレーニングされており、商業的に安全だとされています。

Stability AIはこの技術を広告、小売、ブランドサウンドエフェクトなどの分野に応用することを希望しており、WPP傘下のサウンドブランド代理機関Ampと提携して、大規模顧客に一貫した音声認識サービスを提供しています。Stability AIの音声チームは、企業のサウンドライブラリに合わせてモデルを調整し、独自のサウンドマークを作成することができます。Stable Audio2.5は、WPP Openプラットフォームを通じてWPPのグローバル顧客に公開されます。

2024年4月にStable Audio2をリリースして以来、Stability AIは音声分野でのパートナーネットワークを拡大し、自社の財務力を強化しようと努力しています。今年3月にはWPPグループがStability AIに対して非公開投資を行い、Metaも音声研究を加速しています。

注目ポイント:

🎵 新モデルStable Audio2.5は、複雑な音楽作品を生成し、最長3分間のトラックを素早く生成できます。

🖌️ 音声補完機能を導入し、ユーザーは音声ファイルをアップロードし、AIに録音を完了または拡張させることができます。

🤝 Stability AIはWPPなどの大手顧客と提携し、一貫したブランド音声認識サービスを提供することを目指しています。