著名な人工知能会社である Stability AI は、この度最新版の音声大規模モデル「Stable Audio3」を正式にリリースし、一部のモデル重みをオープンソース化しました。このシステムは、音声生成と編集に特化した潜在拡散モデルであり、高品質なステレオ出力だけでなく、生成速度においても質的な飛躍を遂げています。

今回のリリースされたモデルシリーズは、サイズが小さいものから大きいものまで幅広く、音楽制作やサウンド効果制作などの多様なニーズに対応しています。特に注目すべきは、変数長の音声生成をサポートし、内補像技術に基づく音声編集機能を導入したことで、クリエイターにこれまでにない柔軟性を提供している点です。

image.png

革新的なアーキテクチャでハードウェア制約を打ち破る

Stable Audio3は、2つの主要なコンポーネントから構成されています:SAMEと呼ばれるセマンティックアコースティックオートコーダーと、効率的な拡散トランスフォーマーです。そのうち、SAMEオートコーダーは最大4096倍の音声圧縮率を実現し、これは画期的な設計により潜在シーケンスの長さを大幅に短縮しています。

この効率的な圧縮メカニズムにより、一般的なエントリーレベルのハードウェアでも、長期間かつ大規模な音声生成タスクをスムーズに実行できます。これにより、高品質な音声作成の技術的障壁が顕著に低下し、個人クリエイターが自宅でプロレベルの音声映像制作を行うことが可能になります。

image.png

超高効率で即時レンダリングを実現

変数長技術によって、新しいモデルはユーザーが要求する音声の長さに応じて計算コストが動的に調整されるため、従来の固定長による計算リソースの無駄を完全に解消しました。高性能なハードウェアでのテストでは、このモデルは20秒の音声をわずか0.62秒でレンダリングでき、380秒の音楽生成にも1.31秒しかかかりません。

さらに、独自の3段階トレーニングフローにより、Stable Audio3