近日,騰訊 ARC 團隊發佈了一款名爲 AudioStory 的模型,旨在利用大語言模型(LLMs)生成長篇敘事音頻。該模型解決了現有文本到音頻生成技術在處理短音頻方面的優勢與長篇敘事音頻在時間連貫性與組合推理上的挑戰。

image.png

AudioStory 的核心在於其統一的理解與生成框架。該模型能夠處理視頻配音、音頻延續和長篇敘事音頻合成等多種任務。通過將大語言模型與音頻生成系統結合,AudioStory 能夠生成結構化且具有時間一致性的音頻敘事。該模型具有強大的指令跟隨推理生成能力,可以將複雜的敘事查詢分解爲按時間順序排列的子任務,同時保持場景轉換的連貫性和情感基調的一致性。

image.png

AudioStory 的兩個顯著特點包括:首先,去耦合的橋接機制,能夠有效地將大語言模型與音頻生成器之間的協作分成兩個專業化的部分;其次,端到端的訓練方式,統一指令理解與音頻生成,提升了組件之間的協同效應。

此外,研究團隊還建立了一個名爲 AudioStory-10K 的基準數據集,涵蓋動畫音景和自然聲音敘事等多樣化領域。通過大量實驗,AudioStory 在單音頻生成和敘事音頻生成方面的表現優於以往的文本到音頻生成模型,展現出卓越的指令跟隨能力和音頻質量。

目前,團隊已經發布了模型的推理代碼,並展示了一系列演示視頻,包括經典動畫《貓和老鼠》的配音示例,以及基於文本生成長音頻的應用案例,展示了該模型的廣泛適用性和強大功能。

項目:https://github.com/TencentARC/AudioStory

劃重點:  

🎧 **AudioStory 是騰訊 ARC 推出的長篇敘事音頻生成模型,結合了大語言模型和音頻生成技術。**  

📊 ** 模型具有強大的指令跟隨能力,能夠生成連貫的音頻敘事,提升用戶體驗。**  

🛠️ ** 團隊已發佈推理代碼,並展示多個應用案例,展現其在視頻配音和長音頻生成上的優勢。**