在人工智能賦能內容創作的賽道上,火山引擎近日交出了一份重量級答卷。6月23日,
過去,製作一段達到成片水準的音頻,創作者往往需要分別生成對白、音效和配樂,再通過複雜的手動對齊與混音來實現,極其考驗後期功底。而豆包音頻生成模型1.0帶來的變革在於,它將這一過程高度濃縮——用戶只需輸入一條包含角色臺詞、情緒語氣、背景音樂乃至環境氛圍的 Prompt,模型即可直接產出具備敘事張力的完整音頻成片。

針對長音頻創作中常見的“角色串戲”痛點,該模型實現了文生音頻與參考音頻的深度聯動。無論是創作長篇有聲書還是複雜播客,模型都能在多次音頻延長中,穩定保持角色的聲音特性。這種一次性交付前後一致音色的能力,極大地滿足了專業創作者對長程生成場景的嚴苛需求。
此外,該模型還具備強大的“0樣本多模態音頻創造”能力。通過支持文本描述或參考音頻輸入,創作者無需額外訓練即可得到高質量的目標音頻。模型在音色與風格的控制上實現了深度解耦,支持“一聲多角”的演繹,讓同一個聲音在不同情緒和場景下展現出極高的表現力,顯著降低了專業音頻製作的門檻。
目前,火山方舟已開啓該模型的 API 邀測,個人用戶可直接獲取30分鐘的創作額度。隨着該技術即將上線剪映、即夢及番茄等平臺,音頻創作正從繁瑣的“剪輯拼接”向高效的“創意導演”演進。這一模型不僅是技術的突破,更標誌着 AI 正在成爲內容創作者手中最有力的“全能助手”。
