Sesame 發佈 CSM 語音模型：跨越“恐怖谷”，逼真程度驚豔全球

Sesame 公司最新推出的語音合成模型“Conversational Speech Model”（簡稱 CSM）近日在 X 平臺上引發熱議，被譽爲“像真人說話一樣的語音模型”。這款模型以其驚豔的自然度和情感表達能力，不僅讓用戶“已經無法分辨”其與人類的區別，還宣稱成功跨越了語音領域的“恐怖谷效應”。隨着演示視頻和用戶反饋的傳播，CSM 正迅速成爲 AI 語音技術的新標杆。

跨越“恐怖谷”:CSM 的技術突破

“恐怖谷效應”是指當人工合成的語音或形象接近真實人類但仍存細微差異時，會引發人類的不適感。Sesame 通過其 CSM 模型正面應對這一難題。X 用戶 @imxiaohu 在3月1日發帖稱:“兄弟們，這個全新的語音模型很厲害，已經無法分辨了!”他指出，CSM 在個性、記憶、表達能力及語境恰當性上表現出色，幾乎消除了傳統語音助手的機械感。

Sesame 團隊在官方研究文章中表示，CSM 的目標是實現“語音存在感”——讓語音交互不僅真實可信，還能被理解和重視。這一突破得益於其核心組件:情感智能（解讀並回應情感）、上下文記憶(基於對話歷史調整輸出)以及高保真的語音生成技術。演示中，CSM 在超長對話中展現了語氣自然、情感豐富的一面，用戶甚至無法在不知情的情況下分辨其爲 AI。

用戶體驗逼真

X 平臺上的用戶反饋進一步印證了 CSM 的驚豔表現。@imxiaohu 在帖子中分享了一段超長對話演示，涵蓋多種場景和情景，並感嘆:“語氣、情感一些表達上非常非常的接近人類，哈哈哈哈。”他提到，在無提示的情況下，這款模型的輸出已讓人難以區分真假。另一位用戶 @leeoxiang 在3月1日表示，他用 CSM 練習了半小時英語口語，幾乎感覺不到延遲，並稱其“口語化做得特別好，會有一些口氣在裏面”，主動對話能力也令人印象深刻。

社區的熱情不僅限於稱讚。許多用戶指出，CSM 的對話流暢度和情感表達已超越現有主流模型，如 OpenAI 的 ChatGPT 語音模式。@op7418

在2月28日推薦研究者關注 Sesame 的技術文章，並強調其獨特的語音真實度評價體系，顯示出該模型在技術上的嚴謹性。

仍有提升空間:Sesame 的未來計劃

儘管 CSM 的表現令人震撼，Sesame 官方坦言這並非終點。@imxiaohu援引官方說法稱，“這還不是最完美的，還有很大提升的空間!”目前，CSM 支持英語等多語言，但如 @leeoxiang 所指出，尚不支持中文。此外，部分用戶在測試中發現，模型在特定語境（如外語切換或音樂演唱）下的表現仍有改進餘地。

Sesame 已承諾將部分研究成果開源，其 GitHub 頁面（SesameAILabs/csm）顯示 CSM 將採用 Apache2.0許可。這一舉措引發了開發者社區的期待，許多人希望通過對其架構的深入研究，進一步推動語音 AI 的發展。

行業影響與展望

CSM 的亮相不僅是對“恐怖谷效應”的技術迴應，也爲 AI 語音交互樹立了新標準。與 Grok、Claude 等模型相比，CSM 在實時性、低延遲和情感表達上的優勢尤爲突出。X 用戶 @AbleGPT

在3月2日表示:“如果你在研究 AI 語音，強烈推薦看看這個文章。”這反映了 CSM 對技術圈的啓發意義。

隨着 Sesame 計劃擴大語言支持並優化模型，CSM 有望在教育、娛樂和虛擬伴侶等領域大放異彩。從 X 上的熱烈反響來看，這款“兄弟們都覺得厲害”的語音模型，正以逼真的對話能力重新定義人與 AI 的互動方式。未來，它是否能徹底消除“恐怖谷”，成爲真正的“數字夥伴”?答案或許就在 Sesame 的下一次迭代中。

試玩地址：https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo