Sesame發佈超真實的AI語音產品：幾乎沒有AI味

語音助手逐漸成爲我們生活中不可或缺的一部分，而現有的數字語音助手在與用戶互動時，往往顯得平淡無奇，缺乏情感和人性化的元素。對此，Sesame 團隊正在努力解決這一問題，致力於實現一種全新的 “語音存在” 概念，使得數字助手能夠在交流中更真實、被理解和重視。

Sesame 的核心目標是創造一種數字伴侶，不僅僅是處理請求的工具，而是能夠進行真實對話的夥伴。這些數字伴侶希望通過與用戶的互動，逐步建立信任感和自信心，進而讓用戶在日常生活中體驗到更爲豐富和深刻的交流。爲此，Sesame 團隊專注於幾個關鍵的組成部分，包括情感智能、對話動態、上下文意識和一致的人格特徵。

情感智能是讓語音助手能夠理解和迴應用戶情感狀態的能力。它不僅僅停留在語音命令的理解上，而是要能夠感知語音中的情感變化，從而做出更適當的反饋。其次，對話動態則強調語音助手在交流過程中應具備的自然節奏，包括適時的停頓、恰當的語氣強調和打斷等，使得對話更加流暢和自然。

另外，上下文意識也是至關重要的。它要求語音助手根據對話的背景和歷史，靈活調整語調和風格，以匹配當前的情境。這種能力能夠使得數字助手在不同的場合下都能顯得恰如其分，進而提高用戶的滿意度。最後，一致的人格特徵則意味着語音助手在各類對話中都應保持相對一致的個性和風格，以增強用戶的信任感。

然而，要實現 “語音存在” 的目標並非易事。Sesame 團隊在個性、記憶、表現力和適當性等多個方面的努力取得了逐步進展。近期，團隊展示了一些在對話語音生成方面的實驗成果，特別是在友好性和表現力上進行了優化，充分展現了其方法的潛力。

在技術層面，Sesame 團隊針對傳統文本到語音（TTS）模型的不足，提出了一種稱爲 “對話語音模型”(CSM)的新方法。這種方法利用轉換器架構，旨在實現更爲自然和連貫的語音生成。CSM 不僅處理文本和音頻的多模態學習，還能夠根據對話的歷史來調整輸出，從而解決傳統模型在上下文理解上的短板。

爲了驗證模型的效果，Sesame 團隊使用了大量公開的音頻數據進行訓練，並通過轉錄、分段等方式準備訓練樣本。他們訓練了不同規模的模型，並在客觀和主觀評估指標上取得了良好成績，儘管目前模型在自然度和語音適應性方面已接近人類水平，但在具體的對話情境中仍有待提升。

從官方給出的樣本，其生成的作品幾乎聽不出一點AI的成分，超級有真實感。

Sesame 團隊計劃開源其研究成果，以便社區能夠參與實驗和改進。這一舉措不僅有助於加速對話 AI 的發展，同時也希望通過擴展模型規模和語言支持，涵蓋更多的應用場景。此外，團隊還計劃探討如何利用預訓練語言模型，爲多模態模型的構建奠定基礎。

項目demo:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

劃重點:
🌟 Sesame 團隊致力於實現 “語音存在”，讓數字助手不僅能執行命令，還能進行真實對話。
🔧 通過 “對話語音模型”（CSM），團隊在上下文理解和語音生成方面取得了新突破。
🌐 團隊計劃開源研究成果，並擴展語言支持，以推動對話 AI 的進一步發展。

初創公司 Friend 推遲AI伴侶項鍊發貨，聚焦硬件開發

初創公司 Friend 計劃推出一款售價99美元的 AI 智能項鍊，旨在成爲用戶的數字伴侶，但該公司已宣佈推遲首批產品的發貨，預計將在第三季度進行。原本計劃在第一季度向預購用戶發貨的方案，如今看來已不再可行。公司聯合創始人兼首席執行官 Avi Schiffman 在給客戶的郵件中表示:“雖然我希望能在今年第一季度發貨，但我仍需對產品進行進一步的完善。實際上，電子產品的生產必須在設計完成95% 的情況下才能啓動。”在郵件中，Schiffman 還提到，預計到二月底，原型機完成後，公司將進入

告別語音克隆侵權！Hume AI推出語音控制功能，可創建個性化AI語音

Hume AI，這家專注於情感智能語音界面的初創公司，近日推出了一項名爲 “語音控制” 的實驗性功能。這個新工具旨在幫助開發者和用戶無需任何編碼、AI 提示工程或音效設計技能，就能創造出個性化的 AI 聲音。用戶可以通過精確調節聲音特徵，輕鬆定製符合需求的聲音。這項新功能建立在公司之前推出的 “共情語音界面2”（EVI2）的基礎上，EVI2增強了語音的自然性、情感反應能力和可定製性。與傳統的語音克隆技術不同，Hume 的產品專注於提供獨特且富有表現力的聲音，以滿足客戶服務

EVI 2：Hume AI 的全新語音助手，對話超自然

Hume AI 最近推出了令人興奮的全新語音對話模型 ——EVI2，專實現超人性化的交流而設計。這個模型能夠迅速而流暢地迴應用戶，不僅能理解多種語調，還能根據用戶的個性化需求進行調整，比如改變語速或者模仿說唱風格。EVI2強調情感智能，能根據用戶的偏好和需求進行自我調整，提供更有趣、愉悅的交流體驗。它已經開放了 Beta 版本，開發者們現在可以通過 API 將其整合進自己的應用程序，輕鬆打造獨特的語音交互。這個強大的模型具備多項令人驚歎的功能。首先，它能夠進行實時語音

DeepSeek開源周第六天：極致推理優化系統，提高GPU計算效率

在人工智能（AI）技術快速發展的今天，DeepSeek 團隊推出了其全新的 DeepSeek-V3/R1推理系統。這一系統旨在通過更高的吞吐量和更低的延遲，推動 AGI(通用人工智能)的高效發展。爲了實現這一目標，DeepSeek 採用了跨節點專家並行(Expert Parallelism，EP)技術，顯著提高了 GPU 的計算效率，並在降低延遲的同時，擴展了批處理規模。DeepSeek-V3/R1的核心在於其極高的稀疏性，模型中每層僅激活256個專家中的8個，因此需要非常大的批處理大小，以確保每個專家都有足夠的處理能力。該系統的架構採用了預

集成多模型、實時協作：Flora推出革新設計工作流程的AI畫布