巨人網絡AI Lab與清華大學電子工程系SATLab研究團隊近日聯合發佈一項重大突破:首創多方言語音合成大模型框架DiaMoE-TTS,並宣佈將數據、代碼、方法全方位開源,旨在推動方言語音合成的公平與普惠。

在當前通用TTS(文本轉語音)大模型能力驚人的時代,方言TTS(Dialect TTS)仍是業界難以觸及的“灰色地帶”。現有的工業級方言模型過於依賴巨量的專有數據,導致方言從業者和研究者面臨缺乏統一語料構建方法和端到端開源框架的困境。

音頻 聲波 智能語音

由雙方聯合首創的DiaMoE-TTS框架,爲這一難題提供了一套開源的完整解決方案,其性能在一定程度上可媲美工業級方言TTS模型。該方案的關鍵創新在於:

  1. 統一的IPA表達體系: 基於語言學家的專業經驗,構建了一個統一的國際音標(IPA)表達體系。

  2. 數據高效性: 該框架僅依賴開源方言ASR(自動語音識別)數據,解決了巨量專有數據依賴的痛點。

在推出廣東話、四川話、上海話等中文方言版本之前,該研究團隊已在英語、法語、德語、荷蘭比爾茨語等多語種場景中進行過驗證,證明該方法具備全球範圍內的多語言可擴展性與穩健性。

巨人網絡AI Lab與清華大學電子工程系SATLab表示,希望通過DiaMoE-TTS框架的開源,讓任何研究者、開發者乃至語言文化保護工作者都能自由使用、改進與擴展這一框架,確保小衆語言與方言的聲音不再被通用大模型的洪流所淹沒,而是能通過開源的力量被更廣泛地聽見與傳承。