正文

Hume AI開源TADA：5倍速零幻覺TTS，能在手機上跑700秒長音頻

發布於AI新閒資訊

時間 :Mar 12, 2026

閱讀 :1分鐘

Hume AI近日開源發佈了其最新語音生成模型TADA（Text-Acoustic Dual Alignment），這是一款基於大語言模型的文本轉語音(TTS)系統，採用創新的文本-聲學雙對齊架構，顯著提升了生成效率、可靠性和適用場景。

據官方介紹，TADA通過將文本token與聲學表示實現1:1嚴格同步，徹底解決了傳統LLM-based TTS系統中常見的token級內容幻覺（hallucination）問題。在超過1000個測試樣本的評估中，該模型實現了零內容幻覺的表現。

在性能方面，TADA的生成速度比同級別LLM TTS系統快5倍以上，同時資源消耗極低:每秒音頻僅需2-3幀計算資源，而傳統方案通常需要12.5至75幀。這使得模型能夠在手機、邊緣設備等低功耗硬件上實現本地推理，無需依賴雲端服務器。

TADA支持包括中文在內的多種語言（多語言版本基於Llama3.23B參數規模），並提供1B(主要針對英語)和3B多語言預訓練模型。模型採用2048token的上下文窗口，能夠一次性生成約700秒的連續音頻，遠超傳統方案在相同token限制下僅能支持約70秒的水平。

另一項重要創新是同步轉錄功能:模型在生成語音的同時直接輸出對應文本轉錄，無需額外運行獨立的語音識別（ASR）流程，從而實現零額外延遲的文字輸出。這一特性對於實時字幕、語音交互和內容創作等應用具有顯著價值。

在人類主觀評測中，TADA的自然度和音色相似度排名位居第二，超越了多個參數規模更大、訓練數據更多的系統，展現出極具競爭力的語音質量。

地址：https://huggingface.co/collections/HumeAI/tada

谷歌發佈最強TTS模型，支持近 70 種語言

谷歌推出Gemini-TTS模型，定位爲“最富表現力的文本轉語音解決方案”。其核心突破在於賦予開發者對語音的精細控制能力，通過提示詞可靈活調節情感、節奏和風格，告別傳統TTS聲音單調、缺乏表現力的侷限。

馬斯克旗下xAI公司正式推出Grok文本轉語音Speech API，使AI助手具備語音交互能力。此舉不僅拓展了Grok的多模態功能，更爲開發者提供了便捷接口，可將其對話能力集成至各類應用，推動AI生態向更擬人化方向發展。

馬斯克旗下xAI公司推出Grok大模型的文本轉語音API，開發者可將Grok獨特的幽默“毒舌”語調集成到應用中，使其從文字走向語音交互。

Fish Audio發佈新一代開源TTS模型S2，實現文本轉語音在情感與韻律上的精細控制。用戶可通過自然語言指令或標籤（如[笑]、[耳語]）調節情緒，支持詞級或短語級調整，顯著提升語音表現力與可控性。

蘋果與特拉維夫大學合作推出“原則性粗粒度”技術，通過改變AI語音合成中的驗證方式，在保持音質無損的同時，將生成速度提升約40%，突破了傳統自迴歸模型逐個預測聲音片段的效率瓶頸。

智啟未來，您的人工智能解決方案智庫