Stability AI開源音頻生成模型Stable Audio Open:可生成47秒的立體聲音頻

最近，Stability AI 團隊推出了一款全新的開源音頻生成模型，名爲 Stable Audio Open。這款模型的特別之處在於，它能夠從文本提示生成時長可達47秒的立體聲音頻，採樣率高達44.1kHz。

產品入口：https://top.aibase.com/tool/stable-audio-open-demo

與許多當前流行的音頻生成模型不同，Stable Audio Open 的權重是開放的，這意味着任何人都可以查看、修改和擴展這個模型。這樣的設計理念不僅推動了科學研究的進展，也爲開發者提供了更多的可能性。更重要的是，這款模型只使用了獲得 Creative Commons 許可的音頻文件進行訓練，這樣不僅確保了數據的合法性，還避免了潛在的版權問題，體現了對道德數據使用的高度重視。

在技術架構方面，Stable Audio Open 採用了先進的架構，確保了文本轉音頻生成的高保真度。它可以生成高質量的立體聲音頻，這讓用戶能夠享受到清晰且真實的聲音體驗。在訓練過程中，模型接觸了多種多樣的音頻樣本，這也幫助它學習到了更豐富的音景，使得生成的音頻更加真實多樣。

此外，爲了確保新模型的表現能與行業頂尖模型相媲美，開發團隊進行了全面的性能評估。通過 FDopenl3這一關鍵評估指標，研究人員發現該模型在生成高質量音頻方面表現不俗，與業界的其他優秀模型相當。這個對比研究進一步證明了 Stable Audio Open 的優越性和實用性。

Stable Audio Open 的推出不僅關注開放性和高質量的音頻合成，還爲研究者、藝術家和開發者提供了一個重要的工具。

劃重點:
- 🎧 Stability AI發佈了Stable Audio Open，一個支持生成變長（最長47秒）、44.1kHz立體聲音頻的開源模型。
- 📝 該模型僅使用了Creative Commons許可的音頻數據進行訓練，確保數據的合法性與道德性。
- 🔍 與業界頂尖模型相比，Stable Audio Open的音頻生成質量經過驗證，具備高保真度和多樣性。

馬斯克的xAI將於下月發佈Grok 2，Grok 3預計12月推出

Elon Musk宣佈xAI公司將於下月發佈性能與GPT-4相當的AI模型Grok2，預計12月推出更強大的Grok3，該模型正在孟菲斯數據中心進行15000+GPU的大規模訓練。雖僅部分特斯拉視頻數據尚未應用於模型訓練，但如ChatGPT對比顯示Grok在某些方面仍見不足，밤收購語境下的追趕仍需時間。

小紅書開首家“AI便利店” 爲優秀AI筆記內容提供3W到50W流量扶持

小紅書近日上線“科技薯”賬號，啓動全球首間AI便利店創業項目。通過與全網優質創作者和科技公司合作，提供AI前沿應用、乾貨、情感體驗等內容，該便利店內售賣包括@趙純想等人的創意AI產品，例如吃飯輔助、AI式泡麪教程、AI頸椎病治療、林亦LYi的祖傳AI治療、AI幫老媽完成未竟之事等。科技薯還開設活動，邀請筆記寫手用 "#AI便利店" 發佈AI相關筆記，可獲得三萬到五十萬流量扶持、科技薯官方推薦和小米機器狗等驚喜獎勵。此活動不僅整合AI內容，還通過激勵機制催生更多AI創意內容。

字節跳動火山引擎推出Coze釦子專業版 AI應用開發週期縮短95%以上

釦子平臺是AI應用快速轉化工具，提供豐富插件、知識庫、工作流及圖像流，助用戶將AI創意變成解決複雜任務的“專家型Bot”；火山引擎推出釦子專業版，專門面向企業級應用，其優勢包括更穩定、豐富的資源、更輕鬆的發佈過程，使AI應用開發週期大幅縮短達95%。此版本具備專業級SLA保障，確保業務穩定運行；無縫接入火山方舟的豐富模型資源，特別是豆包大模型家族，以及多種調校與開源模型；增加的團隊資源容量和知識庫容量，以及支持高頻API調用，爲企業低門檻開發AI應用提供強效支持。專業級釦子版已經成功助力多個行業整合企業級AI Bot，提升了AI與業務場景的融合度。

微軟研究院推AI框架E5-V:用文本對的單模態訓練簡化多模態學習降低成本

微軟研究院與北京航空航天大學團隊合作推出了名爲E5-V的高效多模態嵌入框架，旨在解決多模態大語言模型（MLMs）發展中存在的挑戰。這一創新框架通過單模態訓練簡化多模態學習過程，並克服以往模型依賴獨立編碼器，導致輸入整合效果不佳的問題。E5-V通過統一文本、圖像信息，減少了訓練成本，並在多個複雜任務中展現了卓越性能，如文本-圖像檢索、圖像檢索等，特別是在零樣本圖像檢索任務上，相較於頂級模型CLIP ViT-L，性能大幅提升。該框架不僅提高了多模態數據處理的效率，更在複合圖像檢索任務中超越了當前先進方法，驗證了其在提升模型表現上的有效性。E5-V框架代表了多模態學習領域的重要進步，未來有望在多模態研究中樹立新標準並具有廣泛的應用潛力。

努比亞推出自研星雲大模型號稱編程性能國內排名第一

努比亞在新品發佈會上宣佈推出自研的星雲大模型，展現其在AI領域的突破。這一舉動體現了其“AI+”戰略決心。星雲大模型集自然語言處理和視覺識別等高級AI能力於一身，在編程領域評測中僅次於GPT，但具有國內最佳表現，並在某些單元測試中超越了GPT-4turbo。該模型擁有龐大的參數體系，適應各類應用場景。研發基於星環大模型，通過整合豐富領域數據、專業文檔、以及大規模通信技術代碼，採用並行訓練框架，提升了模型性能和適應性。

Stability AI開源音頻生成模型Stable Audio Open:可生成47秒的立體聲音頻

相關推薦

馬斯克的xAI將於下月發佈Grok 2，Grok 3預計12月推出

小紅書開首家“AI便利店” 爲優秀AI筆記內容提供3W到50W流量扶持

字節跳動火山引擎推出Coze釦子專業版 AI應用開發週期縮短95%以上

微軟研究院推AI框架E5-V:用文本對的單模態訓練簡化多模態學習 降低成本

努比亞推出自研星雲大模型 號稱編程性能國內排名第一

微軟研究院推AI框架E5-V:用文本對的單模態訓練簡化多模態學習降低成本

努比亞推出自研星雲大模型號稱編程性能國內排名第一