Stability AI和Arm聯合發佈了一款名爲"穩定音頻開放小型"(Stable Audio Open Small)的緊湊型文本轉音頻模型,該模型能夠在約7秒內生成長達11秒的高質量立體聲音頻片段,且經過優化可在智能手機等移動設備上運行。
這一突破基於加州大學伯克利分校研究人員開發的"對抗相對對比"(Adversarial Relativistic-Contrastive,ARC)技術。該模型在高端硬件如Nvidia H100GPU上的表現更爲驚人,能夠在僅75毫秒內完成44kHz立體聲音頻的生成,實現了近乎實時的音頻合成能力。
與去年發佈的包含11億參數的原始Stable Audio Open相比,這一精簡版本僅使用3.41億個參數,大幅減少了計算資源需求,使其能夠在消費級硬件上流暢運行。這是Stability AI和Arm於今年3月宣佈合作後的首個重要成果。
爲實現智能手機端運行,開發團隊對模型架構進行了徹底改進,將系統重構爲三個核心組件:壓縮音頻數據的自動編碼器,解釋文本提示的嵌入模塊,生成最終音頻的擴散模型。
Stability AI表示,該模型在生成音效和現場錄音方面表現尤爲出色,但在音樂生成方面仍有限制,特別是在處理歌聲時,且目前主要適用於英語提示輸入。
模型訓練使用了Freesound數據庫中約472,000個符合CC0、CC-BY或CC-Sampling+許可條款的音頻片段,開發團隊通過一系列自動化檢查對訓練數據進行了篩選,以避免潛在的版權問題。