Hume AI近日開源發佈了其最新語音生成模型TADA(Text-Acoustic Dual Alignment),這是一款基於大語言模型的文本轉語音(TTS)系統,採用創新的文本-聲學雙對齊架構,顯著提升了生成效率、可靠性和適用場景。
據官方介紹,TADA通過將文本token與聲學表示實現1:1嚴格同步,徹底解決了傳統LLM-based TTS系統中常見的token級內容幻覺(hallucination)問題。在超過1000個測試樣本的評估中,該模型實現了零內容幻覺的表現。
在性能方面,TADA的生成速度比同級別LLM TTS系統快5倍以上,同時資源消耗極低:每秒音頻僅需2-3幀計算資源,而傳統方案通常需要12.5至75幀。這使得模型能夠在手機、邊緣設備等低功耗硬件上實現本地推理,無需依賴雲端服務器。
TADA支持包括中文在內的多種語言(多語言版本基於Llama3.23B參數規模),並提供1B(主要針對英語)和3B多語言預訓練模型。模型採用2048token的上下文窗口,能夠一次性生成約700秒的連續音頻,遠超傳統方案在相同token限制下僅能支持約70秒的水平。
另一項重要創新是同步轉錄功能:模型在生成語音的同時直接輸出對應文本轉錄,無需額外運行獨立的語音識別(ASR)流程,從而實現零額外延遲的文字輸出。這一特性對於實時字幕、語音交互和內容創作等應用具有顯著價值。
在人類主觀評測中,TADA的自然度和音色相似度排名位居第二,超越了多個參數規模更大、訓練數據更多的系統,展現出極具競爭力的語音質量。
地址:https://huggingface.co/collections/HumeAI/tada
