3月13日,Sesame公司推出其最新語音合成模型CSM,引發業界關注。據官方介紹,CSM採用端到端基於Transformer的多模態學習架構,能夠理解上下文信息,生成自然且富有情感的語音,聲音效果貼近真人,令人驚豔。
該模型支持實時語音生成,可處理文本和音頻輸入,用戶還能通過調整參數控制語氣、語調、節奏及情感等特性,展現高度靈活性。
CSM被認爲是AI語音技術的重要突破。其語音自然度極高,甚至“無法分辨是人工合成還是真人”。有用戶錄製視頻展示CSM幾近無延遲的表現,稱其爲“體驗過的最強模型”。此前,Sesame曾開源小版本CSM-1B,支持多輪對話生成連貫語音,獲得廣泛好評。
目前,CSM主要針對英語訓練,表現優異,但在多語言支持上仍有限制。目前其不支持中文,但期待未來擴展。
Sesame表示將部分開源研究成果,社區開發者已在GitHub上熱議其潛力。CSM不僅適用於對話式AI,還可能推動教育、娛樂等領域語音交互體驗的革新。業內人士認爲,CSM或將重塑AI語音助手標準,帶來更自然的人機對話。