【AIbase 報道】語音生成公司 Fish Audio 正式發佈升級版 S1語音克隆模型,在情感表現力與擬真度方面實現重大突破。新版模型能夠生成富有情緒、節奏感與語氣變化的真人級聲音,幾乎可以完美再現人類說話時的細微差別。

據介紹,用戶只需提供約 10秒的語音樣本,S1即可克隆任意人聲,並完整保留原聲的口音、語調與節奏,還原個人的說話習慣與情感特徵,生成效果幾乎與真人無異。相比國際知名產品 ElevenLabs,Fish Audio 的語音克隆服務價格低約 六倍,在語音生成成本和性能平衡上具備明顯優勢。

與此同時,Fish Audio S1API 也已同步上線,顯著提升了實時語音生成體驗。其 首幀延遲(TTFT)低於500毫秒,一句話不到半秒即可開始播放;同時支持輸入與輸出的流式傳輸,實現邊接收文字邊即時朗讀的自然交互,並可無限克隆不同人聲、自由切換使用。

業內認爲,Fish Audio S1的升級意味着語音克隆技術正從“可用”邁向“可感”,其高保真、低延遲的特性將加速 AI 語音在虛擬人、智能助理、內容創作及配音等領域的廣泛落地。