在 AI 視頻生成大火的當下,“有畫無聲”或“聲不對位”一直是影響沉浸感的最後一道屏障。針對這一痛點,阿里通義實驗室近期推出了全新的視頻生成音頻(Video-to-Audio)框架——PrismAudio。該研究已被頂級 AI 會議 ICLR2026收錄,核心旨在爲視頻自動配上嚴絲合縫的環境音效。

image.png

先思考再發聲:引入“思維鏈”的配音大師

傳統的配音模型通常是“直覺式”生成,容易出現馬蹄落在地上卻發出鳥叫,或者聲音比畫面慢半拍的尷尬情況。PrismAudio 的突破在於它學會了“先寫筆記,再發聲”。

  • 分解式思維鏈: 模型在生成聲音前,會先分析視頻內容:畫面裏有什麼?聲音何時開始?音質是清脆還是低沉?聲源在左還是在右?

  • 四重老師打分: 爲了確保質量,研發團隊引入了強化學習,由四位“虛擬老師”從語義一致性、時序同步性、美學質量和空間準確性四個維度同時打分。這種多維度的反饋機制,解決了以往模型“顧此失彼”的頑疾。

輕量且高效:9秒視頻配音僅需0.6秒

除了聽得準,PrismAudio 還跑得極快。得益於自研的 Fast-GRPO 高效訓練算法,該模型在性能跨越式提升的同時,保持了極高的運行效率:

  • 小身材大能量: 模型參數僅爲5.18億,遠低於動輒數十億參數的同類模型。

  • 極速響應: 生成一段9秒的高質量音頻僅需 0.63秒,幾乎做到了“即傳即得”。

行業觀察:環境音效的“真”時代

PrismAudio 的出現,不僅爲影視後期、短視頻創作提供了強大的自動化工具,也爲多目標生成任務提供了新的思路。當 AI 能夠精準權衡聲音的質感與空間感,未來的視頻創作將真正實現“所見即所聞”。

論文地址:arXiv:2511.18833

開源地址:https://prismaudio-project.github.io/