Stability AI近日推出了其最新音頻生成模型 Stable Audio2.5,旨在爲專業音效製作提供更加高效的解決方案。該模型的設計初衷是幫助創意團隊快速生成高質量、可定製的音頻作品,滿足市場對音頻內容日益增長的需求。

image.png

Stable Audio2.5的最大亮點在於其生成能力更爲複雜,能夠創作多段音樂作品,包括引子、發展和尾聲。Stability AI 表示,新的模型能夠更準確地響應情感提示,比如 “振奮人心”,並且能夠理解特定音樂風格的提示,例如 “豐富的合成器聲”。用戶只需幾秒鐘即可生成最長三分鐘的音樂曲目,而在 Nvidia H100GPU 上,處理時間甚至低於兩秒。

這款新模型的速度得益於其採用的後期訓練方法 —— 對抗相對 - 對比(Adversarial Relativistic-Contrastive,簡稱 ARC),這一技術由公司研究團隊開發。Stability AI還在今年五月推出了一款適用於智能手機的緊湊版本,同樣使用 ARC 方法。Stable Audio Open Small 模型能夠在移動設備上生成最多11秒的立體聲音頻,僅需七秒鐘。

在功能方面,Stable Audio2.5的主要更新是音頻修補(audio inpainting)功能。用戶可以上傳自己的音頻文件,選擇起點,讓 AI 生成後續內容,完成或擴展現有的錄音。此外,用戶還可以通過文字提示生成音樂。需要注意的是,上傳的文件必須是無版權的,Stability AI通過先進的識別系統來確保版權合規。與早期版本一樣,Stable Audio2.5也是在一個已授權的數據集上進行訓練的,被認爲是商業安全的。

Stability AI希望該技術能應用於廣告、零售、品牌音效等多個領域,與 WPP 旗下的音效品牌代理機構 Amp 合作,爲大型客戶提供一致的音頻識別服務。Stability AI的音頻團隊還可以根據公司的音效庫調整模型,打造獨特的音頻標識。Stable Audio2.5將通過 WPP Open 平臺面向 WPP 的全球客戶開放。

自2024年4月推出 Stable Audio2以來,Stability AI已開始在音頻領域擴展合作伙伴網絡,努力增強自身財務實力。今年3月,WPP 集團對Stability AI進行了不公開的投資,而 Meta 也在加速推進其音頻研究。

劃重點:

🎵 新模型 Stable Audio2.5支持生成複雜的音樂作品,快速生成最長三分鐘的音軌。

🖌️ 引入音頻修補功能,用戶可以上傳音頻文件,讓 AI 完成或擴展錄音。

🤝 Stability AI 與 WPP 等大型客戶合作,致力於提供一致的品牌音頻識別服務。