針對AI語音合成領域長期存在的效率瓶頸,蘋果公司近日聯手特拉維夫大學發表了一項名爲“原則性粗粒度”(PCG)的創新研究。這項技術通過改變AI對聲音預測的驗證方式,成功實現了在保證音質“零損耗”的前提下,將語音生成速度提升了約40%。

image.png

目前主流的文本轉語音(TTS)模型大多采用“自迴歸”機制,即像串珠子一樣逐個預測接下來的聲音片段。然而,這種模式對結果要求極其刻板,模型往往會因爲預測結果與預設數據存在極微小的聽感差異而強行糾錯,這不僅消耗了大量算力,更嚴重拖慢了生成速度。

蘋果研究團隊提出的PCG技術打破了這一僵局。該技術的核心邏輯在於“求同存異”:研究人員發現,許多細微差異的聲音片段在人類聽覺中幾乎完全一致。因此,PCG引入了“聲學相似組”概念,將傳統的“精確點驗證”升級爲“範圍驗證”。只要AI生成的預測值落在合理的聲學範圍內,系統就會直接予以採納。

在實際測試中,PCG表現驚人。即使將91.4%的語音片段替換爲同組相似音,人耳也幾乎無法察覺差異,模型自然度評分高達4.09分。此外,PCG作爲一種“推理階段”的優化方案,無需對現有模型進行重新訓練,且僅需額外佔用約37MB內存,這爲未來在各種移動終端上普及高質量、低延遲的AI語音服務鋪平了道路。

劃重點:

  • 🚀 速度顯著提升:通過引入PCG技術,AI語音生成速度提升了約40%,有效解決了文本轉語音技術的延遲問題。

  • 👂 聽感質量穩健:採用“範圍驗證”代替“精確匹配”,在極大提高效率的同時,音頻的自然度與說話人相似度幾乎無損。

  • 🛠️ 低成本易部署:該方案無需重新訓練模型,僅需極小的額外內存開銷,可直接應用並優化現有的AI語音推理系統。