Sesame 公司最新推出的語音合成模型“Conversational Speech Model”(簡稱 CSM)近日在 X 平臺上引發熱議,被譽爲“像真人說話一樣的語音模型”。這款模型以其驚豔的自然度和情感表達能力,不僅讓用戶“已經無法分辨”其與人類的區別,還宣稱成功跨越了語音領域的“恐怖谷效應”。隨着演示視頻和用戶反饋的傳播,CSM 正迅速成爲 AI 語音技術的新標杆。
跨越“恐怖谷”:CSM 的技術突破
“恐怖谷效應”是指當人工合成的語音或形象接近真實人類但仍存細微差異時,會引發人類的不適感。Sesame 通過其 CSM 模型正面應對這一難題。X 用戶 @imxiaohu 在3月1日發帖稱:“兄弟們,這個全新的語音模型很厲害,已經無法分辨了!”他指出,CSM 在個性、記憶、表達能力及語境恰當性上表現出色,幾乎消除了傳統語音助手的機械感。
Sesame 團隊在官方研究文章中表示,CSM 的目標是實現“語音存在感”——讓語音交互不僅真實可信,還能被理解和重視。這一突破得益於其核心組件:情感智能(解讀並回應情感)、上下文記憶(基於對話歷史調整輸出)以及高保真的語音生成技術。演示中,CSM 在超長對話中展現了語氣自然、情感豐富的一面,用戶甚至無法在不知情的情況下分辨其爲 AI。
用戶體驗逼真
X 平臺上的用戶反饋進一步印證了 CSM 的驚豔表現。@imxiaohu 在帖子中分享了一段超長對話演示,涵蓋多種場景和情景,並感嘆:“語氣、情感一些表達上非常非常的接近人類,哈哈哈哈。”他提到,在無提示的情況下,這款模型的輸出已讓人難以區分真假。另一位用戶 @leeoxiang 在3月1日表示,他用 CSM 練習了半小時英語口語,幾乎感覺不到延遲,並稱其“口語化做得特別好,會有一些口氣在裏面”,主動對話能力也令人印象深刻。
社區的熱情不僅限於稱讚。許多用戶指出,CSM 的對話流暢度和情感表達已超越現有主流模型,如 OpenAI 的 ChatGPT 語音模式。@op7418
在2月28日推薦研究者關注 Sesame 的技術文章,並強調其獨特的語音真實度評價體系,顯示出該模型在技術上的嚴謹性。
仍有提升空間:Sesame 的未來計劃
儘管 CSM 的表現令人震撼,Sesame 官方坦言這並非終點。@imxiaohu援引官方說法稱,“這還不是最完美的,還有很大提升的空間!”目前,CSM 支持英語等多語言,但如 @leeoxiang 所指出,尚不支持中文。此外,部分用戶在測試中發現,模型在特定語境(如外語切換或音樂演唱)下的表現仍有改進餘地。
Sesame 已承諾將部分研究成果開源,其 GitHub 頁面(SesameAILabs/csm)顯示 CSM 將採用 Apache2.0許可。這一舉措引發了開發者社區的期待,許多人希望通過對其架構的深入研究,進一步推動語音 AI 的發展。
行業影響與展望
CSM 的亮相不僅是對“恐怖谷效應”的技術迴應,也爲 AI 語音交互樹立了新標準。與 Grok、Claude 等模型相比,CSM 在實時性、低延遲和情感表達上的優勢尤爲突出。X 用戶 @AbleGPT
在3月2日表示:“如果你在研究 AI 語音,強烈推薦看看這個文章。”這反映了 CSM 對技術圈的啓發意義。
隨着 Sesame 計劃擴大語言支持並優化模型,CSM 有望在教育、娛樂和虛擬伴侶等領域大放異彩。從 X 上的熱烈反響來看,這款“兄弟們都覺得厲害”的語音模型,正以逼真的對話能力重新定義人與 AI 的互動方式。未來,它是否能徹底消除“恐怖谷”,成爲真正的“數字夥伴”?答案或許就在 Sesame 的下一次迭代中。
試玩地址:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo