Stability AI聯合芯片巨頭Arm正式開源Stable Audio Open Small,一款專爲移動設備優化的341M參數文本到音頻生成模型。這款輕量化模型能在Arm CPU上本地運行,生成高質量立體聲音頻,標誌着AI音頻生成技術向邊緣計算和移動設備的重大邁進。

技術亮點:輕量高效,移動端本地生成

Stable Audio Open Small基於Stability AI此前發佈的Stable Audio Open模型,通過深度優化,參數量從1.1B壓縮至341M,顯著降低了計算需求。得益於Arm的KleidiAI庫支持,模型能在智能手機上以不到8秒的速度生成最長11秒的44.1kHz立體聲音頻,無需雲端處理,適合離線場景。

該模型採用潛在擴散模型(Latent Diffusion Model),結合T5文本嵌入和基於變壓器的擴散架構(DiT),通過簡單的英文文本提示(如“128BPM電子鼓循環”或“海浪拍岸的聲音”)即可生成音效、鼓點、樂器片段或環境音。AIbase測試表明,模型在生成短音頻片段時細節豐富,尤其適合音效設計和音樂製作。

image.png

開源與許可:賦能開發者與創作者

Stable Audio Open Small遵循Stability AI社區許可,對研究人員、個人用戶及年收入低於100萬美元的企業免費開放,模型權重和代碼已在Hugging Face和GitHub上發佈。 大型企業需購買企業許可,確保技術在商業化中的可持續性。這種分級許可策略降低了技術門檻,鼓勵全球開發者探索音頻生成應用。

此外,模型訓練數據全部來自Freesound和Free Music Archive的免版稅音頻,確保了版權合規性,規避了如Suno和Udio等競爭對手因使用受版權保護內容而引發的風險。

性能與創新:ARC後訓練提升效率

Stable Audio Open Small引入了對抗性相對對比(ARC)後訓練方法,無需傳統蒸餾或無分類器指導,結合相對對抗損失和對比鑑別器損失,顯著提升了生成速度和提示遵循性。研究顯示,模型在H100GPU上生成12秒音頻僅需75毫秒,在移動設備上約7秒,且在CLAP條件多樣性得分上達到0.41,位居同類模型之首。

主觀測試中,模型在多樣性(4.4)、質量(4.2)和提示遵循性(4.2)上均獲得高分,展現了其在生成音效和節奏片段方面的優異表現。 其Ping-Pong採樣技術進一步優化了少步推理,兼顧速度與質量。

行業意義:推動移動AI與創意民主化

Stable Audio Open Small的發佈標誌着AI音頻生成技術向移動端和邊緣計算的轉型。與依賴雲處理的競爭對手不同,該模型的離線運行能力爲移動場景(如實時音效生成)提供了便利,覆蓋全球99%的智能手機用戶。 AIbase分析認爲,這種技術普及將重塑音頻創作生態,讓普通用戶也能參與專業級音效設計。

然而,模型也存在侷限性:僅支持英文提示,對非西方音樂風格的表現較弱,且無法生成逼真的人聲或完整歌曲。 Stability AI表示,未來將優化多語言支持和音樂風格多樣性,以提升全球適用性。

項目:https://huggingface.co/stabilityai/stable-audio-open-small