Stability AIはチップメーカーのArmと共同で、Stable Audio Open Smallを正式にオープンソース化しました。これはモバイルデバイス向けに最適化された341Mパラメータのテキストから音声生成を行うモデルです。この軽量なモデルはArm CPU上でローカルで動作し、高品質なステレオ音声を生成することができ、AI音声生成技術がエッジコンピューティングやモバイルデバイスへの大きな前進を示しています。

技術的特徴:軽量かつ効率的、モバイル端末でのローカル生成

Stable Audio Open Smallは、Stability AIが以前に公開したStable Audio Openモデルに基づいており、深く最適化されており、パラメータ数が1.1Bから341Mに圧縮されています。これにより計算要求が大幅に低下しています。ArmのKleidiAIライブラリのサポートにより、スマートフォン上で44.1kHzのステレオサウンドを最大11秒生成するのに8秒未満で実行でき、クラウド処理なしでも可能です。これはオフライン環境に適しています。

このモデルは潜在拡散モデル(Latent Diffusion Model)を使用しており、T5テキスト埋め込みとトランスフォーマー型拡散アーキテクチャ(DiT)を組み合わせています。簡単な英語のテキストプロンプト(例:「128BPMの電子ドラムループ」や「波打ち際の音」など)を使用して、サウンドエフェクト、ドラムビート、楽器のセグメントまたは環境音を生成できます。AIbaseのテスト結果によると、このモデルは短い音声セグメントを生成する際に詳細が豊かであり、特にサウンドデザインや音楽制作に適しています。

image.png

オープンソースとライセンス:開発者とクリエイターを支援

Stable Audio Open SmallはStability AIコミュニティライセンスに準拠しており、研究者、個人ユーザーおよび年収が100万ドル未満の企業に対して無料で提供されます。モデルの重みとコードはHugging FaceとGitHubで公開されています。大企業は企業ライセンスを購入する必要があります。これにより、技術の商用利用における持続可能性が確保されます。このような段階的なライセンス戦略により、技術のハードルが下がり、世界中の開発者が音声生成アプリケーションを探求することを促進します。

さらに、モデルのトレーニングデータはすべてFreesoundとFree Music Archiveからの無版権音声から構成されており、著作権の遵守を確保し、SunoやUdioなどの競合企業のように著作権保護されたコンテンツを使用することで生じるリスクを回避しています。

性能と革新:ARC後の訓練により効率向上

Stable Audio Open Smallは、伝統的な蒸留や分類器なしの指導なしに、対抗的相対的比較(ARC)後のトレーニング方法を導入しています。相対的な対抗損失と比較的識別損失を組み合わせることで、生成速度とプロンプトの遵守性が著しく向上しています。研究によると、H100 GPUで12秒の音声を75ミリ秒で生成でき、モバイルデバイスでは約7秒かかり、CLAP条件多様性スコアでは0.41を達成し、同種のモデルの中で最高です。

主観的なテストでは、このモデルは多様性(4.4)、質(4.2)、プロンプトの遵守性(4.2)で高い点数を獲得し、サウンドエフェクトやリズムセグメントの生成において優れたパフォーマンスを示しています。そのPing-Pongサンプリング技術により、少ないステップの推論がさらに最適化され、スピードと品質の両立が可能になります。

業界的な意義:モバイルAIと創造の民主化の推進

Stable Audio Open Smallのリリースは、AI音声生成技術がモバイルデバイスやエッジコンピューティングへと移行することを示しています。クラウド処理に依存する競合とは異なり、このモデルのオフライン実行能力により、リアルタイム音声生成などのモバイルシナリオに利便性をもたらし、世界中の99%のスマートフォンユーザーをカバーします。AIbaseの分析によると、この技術の普及により、音声創作生態系が再構築され、一般ユーザーも専門レベルのサウンドデザインに参加できるようになります。

しかし、モデルには限界もあります。英語のプロンプトのみをサポートしており、非西洋の音楽スタイルに対する表現力が弱く、本格的な人間の声や完全な曲の生成はできません。Stability AIは、今後多言語サポートや音楽スタイルの多様性を改善し、グローバルな適用性を高める予定です。

プロジェクト:https://huggingface.co/stabilityai/stable-audio-open-small