Stability AI發佈 Stable Audio2.5，專業音頻生成技術再升級

Stability AI近日推出了其最新音頻生成模型 Stable Audio2.5，旨在爲專業音效製作提供更加高效的解決方案。該模型的設計初衷是幫助創意團隊快速生成高質量、可定製的音頻作品，滿足市場對音頻內容日益增長的需求。

Stable Audio2.5的最大亮點在於其生成能力更爲複雜，能夠創作多段音樂作品，包括引子、發展和尾聲。Stability AI 表示，新的模型能夠更準確地響應情感提示，比如 “振奮人心”，並且能夠理解特定音樂風格的提示，例如 “豐富的合成器聲”。用戶只需幾秒鐘即可生成最長三分鐘的音樂曲目，而在 Nvidia H100GPU 上，處理時間甚至低於兩秒。

這款新模型的速度得益於其採用的後期訓練方法 —— 對抗相對 - 對比（Adversarial Relativistic-Contrastive，簡稱 ARC），這一技術由公司研究團隊開發。Stability AI還在今年五月推出了一款適用於智能手機的緊湊版本，同樣使用 ARC 方法。Stable Audio Open Small 模型能夠在移動設備上生成最多11秒的立體聲音頻，僅需七秒鐘。

在功能方面，Stable Audio2.5的主要更新是音頻修補（audio inpainting）功能。用戶可以上傳自己的音頻文件，選擇起點，讓 AI 生成後續內容，完成或擴展現有的錄音。此外，用戶還可以通過文字提示生成音樂。需要注意的是，上傳的文件必須是無版權的，Stability AI通過先進的識別系統來確保版權合規。與早期版本一樣，Stable Audio2.5也是在一個已授權的數據集上進行訓練的，被認爲是商業安全的。

Stability AI希望該技術能應用於廣告、零售、品牌音效等多個領域，與 WPP 旗下的音效品牌代理機構 Amp 合作，爲大型客戶提供一致的音頻識別服務。Stability AI的音頻團隊還可以根據公司的音效庫調整模型，打造獨特的音頻標識。Stable Audio2.5將通過 WPP Open 平臺面向 WPP 的全球客戶開放。

自2024年4月推出 Stable Audio2以來，Stability AI已開始在音頻領域擴展合作伙伴網絡，努力增強自身財務實力。今年3月，WPP 集團對Stability AI進行了不公開的投資，而 Meta 也在加速推進其音頻研究。

劃重點:
🎵 新模型 Stable Audio2.5支持生成複雜的音樂作品，快速生成最長三分鐘的音軌。
🖌️ 引入音頻修補功能，用戶可以上傳音頻文件，讓 AI 完成或擴展錄音。
🤝 Stability AI 與 WPP 等大型客戶合作，致力於提供一致的品牌音頻識別服務。

Stability AI發佈 Stable Audio2.5，專業音頻生成技術再升級

相關推薦

音頻創作迎來新突破！Stability AI 發佈 Stable Audio 3：長音頻秒級生成

卡梅隆重申《阿凡達：火與燼》不使用 AI 技術強調真人表演的重要性

倫敦高院裁定 AI 圖像生成器 Stable Diffusion 不構成 “侵權複製”

倫敦高院駁回Getty訴Stability AI案:AI模型訓練不構成版權侵權

Getty在英國對Stability AI提起的訴訟遭遇重大挫折

Stability AI發佈 Stable Audio2.5，專業音頻生成技術再升級

相關推薦

音頻創作迎來新突破！Stability AI 發佈 Stable Audio 3：長音頻秒級生成

​卡梅隆重申《阿凡達：火與燼》不使用 AI 技術 強調真人表演的重要性

​倫敦高院裁定 AI 圖像生成器 Stable Diffusion 不構成 “侵權複製”

倫敦高院駁回Getty訴Stability AI案:AI模型訓練不構成版權侵權

Getty在英國對Stability AI提起的訴訟遭遇重大挫折

卡梅隆重申《阿凡達：火與燼》不使用 AI 技術強調真人表演的重要性

倫敦高院裁定 AI 圖像生成器 Stable Diffusion 不構成 “侵權複製”