Fish Audio 推出 S1 語音克隆模型升級：10 秒即可復刻真人語音

【AIbase 報道】語音生成公司 Fish Audio 正式發佈升級版 S1語音克隆模型，在情感表現力與擬真度方面實現重大突破。新版模型能夠生成富有情緒、節奏感與語氣變化的真人級聲音，幾乎可以完美再現人類說話時的細微差別。

據介紹，用戶只需提供約 10秒的語音樣本，S1即可克隆任意人聲，並完整保留原聲的口音、語調與節奏，還原個人的說話習慣與情感特徵，生成效果幾乎與真人無異。相比國際知名產品 ElevenLabs，Fish Audio 的語音克隆服務價格低約六倍，在語音生成成本和性能平衡上具備明顯優勢。

與此同時，Fish Audio S1API 也已同步上線，顯著提升了實時語音生成體驗。其 首幀延遲（TTFT）低於500毫秒，一句話不到半秒即可開始播放;同時支持輸入與輸出的流式傳輸，實現邊接收文字邊即時朗讀的自然交互，並可無限克隆不同人聲、自由切換使用。

業內認爲，Fish Audio S1的升級意味着語音克隆技術正從“可用”邁向“可感”，其高保真、低延遲的特性將加速 AI 語音在虛擬人、智能助理、內容創作及配音等領域的廣泛落地。

美國企業“棄用”頭部AI：中國模型憑藉高性價比突圍

近期全球AI市場出現新動態：多家美國頭部AI廠商調整定價，促使美國企業轉向更具成本效益的方案。中國大模型憑藉高性價比加速進入美國企業應用鏈。數據顯示，自2月8日以來，美國企業調用DeepSeek、智譜GLM等國產模型的佔比顯著增長，尤其通過OpenRouter等聚合平臺表現突出。

具身智能新突破：螞蟻集團開源LingBot-Vision，讓機器人擁有“空間感”

螞蟻集團Robbyant開源LingBot-Vision模型家族，通過自監督視覺Transformer與創新“邊界建模”，在密集空間感知任務上表現卓越，多項指標超越數倍參數的大模型，突破了現有視覺基礎模型偏重物體識別的侷限，讓機器人精準感知物理空間成現實。

Steam玩家對AI沒那麼抗拒：43%表示可以接受，僅8%絕對不碰