騰訊ARC開源音頻模型 AudioStory：用大語言模型生成長音頻

近日，騰訊 ARC 團隊發佈了一款名爲 AudioStory 的模型，旨在利用大語言模型（LLMs）生成長篇敘事音頻。該模型解決了現有文本到音頻生成技術在處理短音頻方面的優勢與長篇敘事音頻在時間連貫性與組合推理上的挑戰。

AudioStory 的核心在於其統一的理解與生成框架。該模型能夠處理視頻配音、音頻延續和長篇敘事音頻合成等多種任務。通過將大語言模型與音頻生成系統結合，AudioStory 能夠生成結構化且具有時間一致性的音頻敘事。該模型具有強大的指令跟隨推理生成能力，可以將複雜的敘事查詢分解爲按時間順序排列的子任務，同時保持場景轉換的連貫性和情感基調的一致性。

AudioStory 的兩個顯著特點包括:首先，去耦合的橋接機制，能夠有效地將大語言模型與音頻生成器之間的協作分成兩個專業化的部分;其次，端到端的訓練方式，統一指令理解與音頻生成，提升了組件之間的協同效應。

此外，研究團隊還建立了一個名爲 AudioStory-10K 的基準數據集，涵蓋動畫音景和自然聲音敘事等多樣化領域。通過大量實驗，AudioStory 在單音頻生成和敘事音頻生成方面的表現優於以往的文本到音頻生成模型，展現出卓越的指令跟隨能力和音頻質量。

目前，團隊已經發布了模型的推理代碼，並展示了一系列演示視頻，包括經典動畫《貓和老鼠》的配音示例，以及基於文本生成長音頻的應用案例，展示了該模型的廣泛適用性和強大功能。

項目：https://github.com/TencentARC/AudioStory

劃重點:
🎧 **AudioStory 是騰訊 ARC 推出的長篇敘事音頻生成模型，結合了大語言模型和音頻生成技術。**
📊 ** 模型具有強大的指令跟隨能力，能夠生成連貫的音頻敘事，提升用戶體驗。**
🛠️ ** 團隊已發佈推理代碼，並展示多個應用案例，展現其在視頻配音和長音頻生成上的優勢。**

卡內基梅隆大學研發新 AI 系統：像“指揮家”一樣實時修復 3D 打印缺陷

卡內基梅隆大學團隊開發出基於大語言模型的3D打印實時糾錯系統。該系統模仿交響樂團，由一個“指揮家”智能體協調四個專業智能體，自動檢測並修復打印過程中的微小參數波動導致的錯誤，解決了傳統開環系統易失敗的問題。

東軟集團攜手 Cerence AI，打造未來智能座艙新體驗

東軟集團與Cerence AI達成戰略合作，共同開發新一代智能座艙平臺，聚焦智能語音與大語言模型技術，爲全球車企提供高效、預集成的智能交互解決方案。東軟將依託其NAGIC智能座艙平臺，結合Cerence AI的前沿技術，滿足市場對智能座艙日益增長的需求。

騰訊ARC開源音頻模型 AudioStory：用大語言模型生成長音頻

相關推薦

融資2.55億美元:AI實驗室Fundamental破繭而出，用Nexus模型重塑大模型分析能力

卡內基梅隆大學研發新 AI 系統：像“指揮家”一樣實時修復 3D 打印缺陷

研究揭示就業寒冬早於 ChatGPT 問世，AI 衝擊波早在2022年初已顯現

一年狂飆500%！“AI教母”李飛飛再造神話，World Labs50 億美元估值劍指世界模型

東軟集團攜手 Cerence AI，打造未來智能座艙新體驗

​騰訊ARC開源音頻模型 AudioStory：用大語言模型生成長音頻

相關推薦

​融資2.55億美元:AI實驗室Fundamental破繭而出，用Nexus模型重塑大模型分析能力

卡內基梅隆大學研發新 AI 系統：像“指揮家”一樣實時修復 3D 打印缺陷

研究揭示就業寒冬早於 ChatGPT 問世，AI 衝擊波早在2022年初已顯現

一年狂飆500%！“AI教母”李飛飛再造神話，World Labs50 億美元估值劍指世界模型

東軟集團攜手 Cerence AI，打造未來智能座艙新體驗

騰訊ARC開源音頻模型 AudioStory：用大語言模型生成長音頻

融資2.55億美元:AI實驗室Fundamental破繭而出，用Nexus模型重塑大模型分析能力