近日,通義實驗室語音團隊在空間音頻生成領域取得里程碑式成果,推出OmniAudio技術,該技術可直接從360°視頻生成FOA(First-order Ambisonics)音頻,爲虛擬現實和沉浸式娛樂帶來全新可能。

空間音頻作爲一種模擬真實聽覺環境的技術,能提升沉浸式體驗,但現有技術大多基於固定視角視頻,對360°全景視頻空間信息利用不足。傳統視頻到音頻生成技術主要生成非空間音頻,無法滿足沉浸式體驗對3D聲音定位需求,且多基於有限視角視頻,錯過全景視頻豐富視覺上下文。隨着360°攝像頭普及和虛擬現實技術發展,利用全景視頻生成匹配空間音頻成爲亟待解決的問題。

爲應對挑戰,通義實驗室提出360V2SA(360-degree Video to Spatial Audio)任務。FOA是一種標準3D空間音頻格式,用四個通道(W、X、Y、Z)表示聲音,能捕捉聲音方向性,實現真實3D音頻再現,且在頭部旋轉時能保持聲音定位準確性。

微信截圖_20250529174346.png

數據是機器學習模型基石,但現有配對360°視頻和空間音頻數據稀缺。爲此,研究團隊精心構建Sphere360數據集,包含超過103,000個真實世界視頻片段,涵蓋288種音頻事件,總時長288小時,既包含360°視覺內容,又支持FOA音頻。在構建過程中,團隊採用嚴格篩選和清洗標準,利用多種算法確保高質量對齊。

OmniAudio訓練方法分兩階段。第一階段爲自監督的coarse-to-fine流匹配預訓練,團隊充分利用大規模非空間音頻資源,將立體聲轉換爲“僞FOA”格式後送入四通道VAE編碼器獲得潛在表示,再以一定概率進行隨機時間窗掩碼,將掩碼後潛在序列與完整序列一同作爲條件輸入至流匹配模型,實現對音頻時序和結構的自監督學習,使模型掌握通用音頻特徵和宏觀時域規律。第二階段爲基於雙分支視頻表示的有監督微調,團隊僅使用真實FOA音頻數據,繼續沿用掩碼流匹配訓練框架,強化模型對聲源方向表徵能力,提升對高保真空間音頻細節重建效果。完成自監督預訓練後,團隊將模型與雙分支視頻編碼器結合進行有監督微調,從噪聲中有針對性地“雕刻”出符合視覺指示的FOA潛在軌跡,輸出與360°視頻高度對齊、具備精確方向感的四通道空間音頻。

在實驗設置中,研究團隊在Sphere360-Bench和YT360-Test測試集上進行有監督微調與評估,採用客觀和主觀指標衡量生成音頻質量。結果顯示,OmniAudio在兩套測試集上均顯著優於所有基線。在YT360-Test上,OmniAudio在FD、KL和ΔAngular等指標上大幅降低;在Sphere360-Bench上同樣取得優異成績。在人機主觀評估中,OmniAudio在空間音頻質量和視音對齊兩項上得分也遠高於最優基線,體現出其合成結果在清晰度、空間感及與畫面同步性方面均更佳。此外,消融實驗驗證了預訓練策略、雙分支設計和模型規模對性能提升的貢獻。

項目主頁

https://omniaudio-360v2sa.github.io/

代碼和數據開源倉庫

https://github.com/liuhuadai/OmniAudio

論文地址

https://arxiv.org/abs/2504.14906