最近,Stability AI 團隊推出了一款全新的開源音頻生成模型,名爲 Stable Audio Open。這款模型的特別之處在於,它能夠從文本提示生成時長可達47秒的立體聲音頻,採樣率高達44.1kHz。
產品入口:https://top.aibase.com/tool/stable-audio-open-demo
與許多當前流行的音頻生成模型不同,Stable Audio Open 的權重是開放的,這意味着任何人都可以查看、修改和擴展這個模型。這樣的設計理念不僅推動了科學研究的進展,也爲開發者提供了更多的可能性。更重要的是,這款模型只使用了獲得 Creative Commons 許可的音頻文件進行訓練,這樣不僅確保了數據的合法性,還避免了潛在的版權問題,體現了對道德數據使用的高度重視。
在技術架構方面,Stable Audio Open 採用了先進的架構,確保了文本轉音頻生成的高保真度。它可以生成高質量的立體聲音頻,這讓用戶能夠享受到清晰且真實的聲音體驗。在訓練過程中,模型接觸了多種多樣的音頻樣本,這也幫助它學習到了更豐富的音景,使得生成的音頻更加真實多樣。
此外,爲了確保新模型的表現能與行業頂尖模型相媲美,開發團隊進行了全面的性能評估。通過 FDopenl3這一關鍵評估指標,研究人員發現該模型在生成高質量音頻方面表現不俗,與業界的其他優秀模型相當。這個對比研究進一步證明了 Stable Audio Open 的優越性和實用性。
Stable Audio Open 的推出不僅關注開放性和高質量的音頻合成,還爲研究者、藝術家和開發者提供了一個重要的工具。
劃重點:
- 🎧 Stability AI發佈了Stable Audio Open,一個支持生成變長(最長47秒)、44.1kHz立體聲音頻的開源模型。
- 📝 該模型僅使用了Creative Commons許可的音頻數據進行訓練,確保數據的合法性與道德性。
- 🔍 與業界頂尖模型相比,Stable Audio Open的音頻生成質量經過驗證,具備高保真度和多樣性。