豆包音頻生成模型1. 0 發佈，開啓“音頻導演”時代

在人工智能賦能內容創作的賽道上，火山引擎近日交出了一份重量級答卷。6月23日，豆包音頻生成模型1.0正式發佈，憑藉“多模態參考生成”與“長時音色一致性”兩大核心技術，徹底打破了傳統音頻製作繁瑣的後期工作流。

過去，製作一段達到成片水準的音頻，創作者往往需要分別生成對白、音效和配樂，再通過複雜的手動對齊與混音來實現，極其考驗後期功底。而豆包音頻生成模型1.0帶來的變革在於，它將這一過程高度濃縮——用戶只需輸入一條包含角色臺詞、情緒語氣、背景音樂乃至環境氛圍的 Prompt，模型即可直接產出具備敘事張力的完整音頻成片。

針對長音頻創作中常見的“角色串戲”痛點，該模型實現了文生音頻與參考音頻的深度聯動。無論是創作長篇有聲書還是複雜播客，模型都能在多次音頻延長中，穩定保持角色的聲音特性。這種一次性交付前後一致音色的能力，極大地滿足了專業創作者對長程生成場景的嚴苛需求。

此外，該模型還具備強大的“0樣本多模態音頻創造”能力。通過支持文本描述或參考音頻輸入，創作者無需額外訓練即可得到高質量的目標音頻。模型在音色與風格的控制上實現了深度解耦，支持“一聲多角”的演繹，讓同一個聲音在不同情緒和場景下展現出極高的表現力，顯著降低了專業音頻製作的門檻。

目前，火山方舟已開啓該模型的 API 邀測，個人用戶可直接獲取30分鐘的創作額度。隨着該技術即將上線剪映、即夢及番茄等平臺，音頻創作正從繁瑣的“剪輯拼接”向高效的“創意導演”演進。這一模型不僅是技術的突破，更標誌着 AI 正在成爲內容創作者手中最有力的“全能助手”。

前印度信息技術巨頭新創企業，欲用 AI 顛覆 IT 服務行業

前印孚瑟斯CEO維沙爾·西卡創立初創公司Hang Ten Systems，試圖用AI技術挑戰傳統IT服務業。該公司通過AI驅動的軟件開發與自動化，幫助企業持續構建、修改和運營軟件。近日，Hang Ten宣佈獲3200萬美元種子融資，由Mayfield主投，Aramco Ventures參投。

豆包音頻生成模型1. 0 發佈，開啓“音頻導演”時代

相關推薦

近 400 家地方報紙起訴 OpenAI 和微軟，指控侵犯版權

志願填報“參謀”到位：高考出分三日，大模型已助 500 萬考生“定心”

前印度信息技術巨頭新創企業，欲用 AI 顛覆 IT 服務行業

3D生成領域的“中國黑馬”：影眸科技斬獲數億融資，技術實力獲英偉達青睞

打破多模型切換壁壘！谷歌將“電腦操作”原生塞進 Gemini 3.5 Flash

豆包音頻生成模型1. 0 發佈，開啓“音頻導演”時代

相關推薦

​近 400 家地方報紙起訴 OpenAI 和微軟，指控侵犯版權

志願填報“參謀”到位：高考出分三日，大模型已助 500 萬考生“定心”

​前印度信息技術巨頭新創企業，欲用 AI 顛覆 IT 服務行業

3D生成領域的“中國黑馬”：影眸科技斬獲數億融資，技術實力獲英偉達青睞

​打破多模型切換壁壘！谷歌將“電腦操作”原生塞進 Gemini 3.5 Flash

近 400 家地方報紙起訴 OpenAI 和微軟，指控侵犯版權

前印度信息技術巨頭新創企業，欲用 AI 顛覆 IT 服務行業

打破多模型切換壁壘！谷歌將“電腦操作”原生塞進 Gemini 3.5 Flash