最近、Stability AIはチップ大手のArmと協力し、軽量級のテキストto音声モデルである「Stable Audio Open Small」を正式にオープンソースしました。このパラメータ数わずか3億4100万のモデルは、Arm CPU向けに最適化されており、スマートフォンなどのモバイルデバイス上でローカルで実行できます。高品質な音声サンプルを生成するのに約8秒しかかかりません。AIbaseはこの技術革新について詳しく解説し、その音声クリエイションやモバイルAIエコシステムへの深い影響を探求します。

1.jpg

モデルURL:https://huggingface.co/stabilityai/stable-audio-open-small

技術の特徴: 超軽量モデル、スマホローカル実行

Stable Audio Open Smallは、3億4100万パラメータというコンパクトな設計により、現在市場にある最も軽量で効率的なテキストto音声モデルの一つです。Armとの深いつながりを持ち、このモデルはKleidiAIライブラリを使用して最適化され、スマートフォンのArm CPU上で約8秒で11秒間の音声を生成することが可能です。その前身モデルであるStable Audio Open(11億パラメータ)に比べて、新しいモデルは高い音質を維持しつつ計算要件を大幅に削減しています。

AIBaseによると、このモデルは伝統的な蒸留法や条件付き生成手法ではなく、対抗式後訓練(ARC)技術を採用しており、推論速度をさらに高速化しています。NVIDIA H100 GPUでは、生成時間はわずか75ミリ秒に短縮されます。これにより、高性能デバイスでの潜在能力が示されています。音響デザインやミュージックサンプルの作成において、Stable Audio Open Smallはユーザーにスムーズなローカル体験を提供します。

音響クリエイションに特化: 短音声生成の専門ツール

Stable Audio Open Smallは、最長11秒までの短音声サンプル生成に特化して設計されており、音響効果、ドラムパターン、楽器パート、環境音などに適応しています。ユーザーは「波の音」や「128BPMの電子ドラムループ」といった簡単な英語のテキストプロンプトを入力するだけで、44.1kHzのステレオ音声をすぐに生成できます。AIBaseのテストでは、このモデルが音響効果やリズムの部分生成において優れたパフォーマンスを発揮し、詳細豊かな音声を出力することが確認されました。これは音響デザイナーやミュージックプロデューサー、コンテンツクリエイターにとって非常に便利です。

ただし、このモデルにはいくつかの制限があります。Stability AIの公式ドキュメントによると、現時点では英語プロンプトのみサポートされており、本格的な歌声や高品質なフルトラックの音楽は生成できません。また、トレーニングデータが主に西洋音楽に基づいているため、非西洋音楽スタイルには対応が不十分かもしれません。AIBaseは、ユーザーが最高の結果を得るためにプロンプト内容を調整することを勧めています。

オープンソースと倫理: クリエイターリアリティを尊重

Stable Audio Open SmallのトレーニングデータセットはすべてFree Music ArchiveやFreesoundの無償使用可能な音声から構成されており、モデルの著作権遵守を確保しています。AIBaseは、これが業界全体のトレーニングデータ著作権に関する広範な議論に答え、他のAI企業に道しるべを示すものだと評価しています。Stability AIによれば、トレーニングデータは厳密に選定され、著作権保護されている未承諾の内容は一切排除されています。

オープンソースプロジェクトとして、Stable Audio Open SmallのモデルウェイトはHugging FaceやGitHubで公開され、開発者が無料でダウンロードできます。モデルはStability AIコミュニティライセンスに基づき、個人ユーザー、研究者、年収100万ドル未満の企業は無料で使用できますが、大企業は企業ライセンスを申請する必要があります。この柔軟なライセンス方針は技術の敷居を下げ、世界中の開発者が音声生成アプリケーションの可能性を探求する手助けとなります。

業界への意義: モバイルAIと創造の民主化の新たな章

Stable Audio Open Smallのリリースは、AI音声生成技術がエッジコンピューティングとモバイルデバイスへと大きく進展したことを示しています。SunoやUdioなどクラウド依存型の競合製品とは異なり、このモデルのオフライン実行能力により、ユーザーはインターネット接続なしで音声を生成でき、特にモバイルシナリオでの即時ニーズに適しています。AIBaseは、このモデルがスマートフォンやタブレットなどの消費デバイスの知能化を促進し、バーチャルキャスター、ゲーム音響、教育コンテンツ作成などの分野で新たな機会をもたらすと予測しています。

さらに、Stability AIとArmの協力は、エンドポイントAIの発展における模範となりました。AIBaseの分析によると、モデルを低消費電力ハードウェアに最適化することで、Stable Audio Open Smallは創作コストを削減し、世界中の99%のスマートフォンユーザーにAI音声生成の扉を開きました。この民主化の流れは、より多くの一般ユーザーが専門的な音響デザインに参加できるようにするでしょう。

国産AIは加速すべき

AI分野の権威あるメディアであるAIBaseは、Stable Audio Open Smallのリリースに対して高く評価しています。その超軽量設計、オフライン実行能力、そしてオープンソース属性は、Stability AIが音声生成分野で豊富な蓄積を持っていることを示しています。しかし同時に、国内のAI企業にはエンドポイントAIとオープンソースエコシステムでの取り組みを加速させる必要があることが示唆されています。