由清華大學語音與語言實驗室(Tencent AI Lab)聯合上海創智學院、復旦大學和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式開源,標誌着AI語音合成技術在對話場景中的重大突破。
這款基於Qwen3-1.7B-base模型續訓練的語音對話生成模型,以約100萬小時單說話人語音數據和40萬小時對話語音數據爲基礎,採用離散化語音序列建模方法,實現了中英雙語的高表現力對話語音生成,特別適合AI播客、有聲小說和影視配音等長篇內容創作。
MOSS-TTSD的核心創新在於其XY-Tokenizer,採用雙階段多任務學習方式,通過八層RVQ碼本將語音信號壓縮至1kbps比特率,同時保留語義與聲學信息,確保生成語音的自然度和流暢性。模型支持最長960秒的超長語音生成,避免了傳統TTS模型拼接片段導致的不自然過渡。此外,MOSS-TTSD具備零樣本音色克隆能力,可通過上傳完整對話片段或單人音頻實現雙人語音克隆,並支持聲音事件控制,如笑聲等非語言聲音,賦予語音更豐富的表現力。
與市場上其他語音模型相比,MOSS-TTSD在中文客觀指標上大幅領先開源模型MoonCast,韻律和自然度表現優異。然而,相較於字節跳動的豆包語音模型,其語氣和節奏感略遜一籌,但在開源和免費商業使用的優勢下,MOSS-TTSD仍展現出強大的應用潛力。模型權重、推理代碼和API接口已通過GitHub(https://github.com/OpenMOSS/MOSS-TTSD)和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面開源,官方文檔和在線體驗Demo也已上線,爲開發者提供便捷接入。
MOSS-TTSD的發佈爲AI語音交互領域注入新活力,尤其在長篇訪談、播客製作和影視配音等場景中,其穩定性和表現力將推動內容創作的智能化進程。未來,團隊計劃進一步優化模型,增強多說話人場景下的語音切換準確性和情感表達。
地址:https://github.com/OpenMOSS/MOSS-TTSD