Sesame發佈CSM模型：實時情感定製 AI語音合成邁向新高度

3月13日，Sesame公司推出其最新語音合成模型CSM，引發業界關注。據官方介紹，CSM採用端到端基於Transformer的多模態學習架構，能夠理解上下文信息，生成自然且富有情感的語音，聲音效果貼近真人，令人驚豔。

該模型支持實時語音生成，可處理文本和音頻輸入，用戶還能通過調整參數控制語氣、語調、節奏及情感等特性，展現高度靈活性。

CSM被認爲是AI語音技術的重要突破。其語音自然度極高，甚至“無法分辨是人工合成還是真人”。有用戶錄製視頻展示CSM幾近無延遲的表現，稱其爲“體驗過的最強模型”。此前，Sesame曾開源小版本CSM-1B，支持多輪對話生成連貫語音，獲得廣泛好評。

目前，CSM主要針對英語訓練，表現優異，但在多語言支持上仍有限制。目前其不支持中文，但期待未來擴展。

Sesame表示將部分開源研究成果，社區開發者已在GitHub上熱議其潛力。CSM不僅適用於對話式AI，還可能推動教育、娛樂等領域語音交互體驗的革新。業內人士認爲，CSM或將重塑AI語音助手標準，帶來更自然的人機對話。

Transformer 核心作者 Noam Shazeer 加盟 OpenAI，谷歌巨資未能挽留

人工智能領域傳奇研究員、Transformer架構核心作者諾姆·沙澤爾宣佈加盟OpenAI。此前谷歌、OpenAI等巨頭展開激烈競爭，最終OpenAI成功招攬。值得關注的是，不到兩年前谷歌剛以約27億美元技術許可費請回這位“巫師”，其迅速轉投競爭對手引發震動，彰顯AI人才戰白熱化。

性能提升 475 倍！富士通推出PHOTON新架構，劍指AI算力瓶頸