亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

亞馬遜近日發佈了其最新的 AI 語音模型 ——Nova Sonic，這一新技術標誌着該公司在人工智能語音領域的重要進展。Nova Sonic 能夠快速處理語音輸入並生成自然流暢的語音輸出，其在速度、識別準確性以及對話質量等方面已達到了與 OpenAI 和谷歌等行業領軍企業的頂尖水平。

與其他 AI 語音模型相比，Nova Sonic 在性價比方面表現突出，價格竟然比 OpenAI 的 GPT-4o 便宜約 80%。這種經濟實惠的解決方案無疑爲企業開發 AI 應用提供了更具吸引力的選擇。Nova Sonic 通過亞馬遜 Bedrock 開發者平臺進行服務，採用了一種創新的雙向流式 API 接口，能夠爲企業提供強大的開發支持。

更令人驚訝的是，Nova Sonic 在智能化處理用戶請求方面表現出色。它能夠靈活地識別何時需要從互聯網獲取實時信息，解析專有數據，甚至在外部應用程序中執行任務，選擇適合的工具來完成用戶需求。這種能力讓 Nova Sonic 在衆多 AI 語音模型中脫穎而出。

在與用戶進行雙向對話時，Nova Sonic 能夠精確把握時機發言，考慮到用戶的停頓和打，保證對話的自然流暢。此外，該模型還具備將語音轉換爲文本的功能，開發者可以根據這些文本信息進行多種應用的開發與優化。

亞馬遜 AGI 部門的首席科學家羅希特・普拉薩德表示，Nova Sonic 的部分技術已在升級版數字助手 Alexa + 中得到應用。這一新模型的推出是亞馬遜實現人工通用智能 (AGI) 戰略的關鍵一步，未來該公司還計劃推出支持多模態理解的 AI 模型，以處理圖像、視頻和其他物理世界感知數據，進一步拓寬 AI 應用的邊界。

隨着 Nova Sonic 的推出，亞馬遜無疑在 AI 語音領域佔據了更爲重要的市場地位，爲企業與開發者提供了更多選擇與可能性。

兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

在 AI 語音生成領域，競爭正變得愈發激烈。近日，來自韓國的兩名本科生合夥創建了一款名爲 Dia 的 AI 語音模型，聲稱其功能可與谷歌的 NotebookLM 相媲美。儘管這兩位創始人在 AI 領域的經驗尚淺，但他們在短短三個月內，成功開發出一款開放獲取的語音生成工具。Dia 的訓練依賴於谷歌的 TPU Research Cloud 項目，該項目爲研究人員提供免費的 TPU AI 芯片使用權限。Dia 模型擁有1.6億個參數，能夠根據給定的腳本生成對話。用戶還可以自由定製發言人的語調，並插入諸如咳嗽、笑聲等非語言提示

亞馬遜推新一代AI語音模型Nova Sonic，捕捉語氣、語調變化和節奏

亞馬遜近日推出了一款新型 AI 語音模型 ——Nova Sonic，旨在提升其語音助手 Alexa + 的性能。Nova Sonic 被設計用於本地處理語音並生成自然流暢的回覆，標誌着亞馬遜在語音識別技術領域的又一次突破。Nova Sonic 採取了一種全新的整合方式，將語音理解和生成的能力統一到一個模型中。這一創新不僅簡化了語音應用的開發過程，還能根據語音輸入的聲學背景（如語調和風格）來調整生成的語音響應，從而實現更加自然的對話。Nova Sonic 甚至能夠理解人類對話中的細微之處，包括說話者的自然停

MiniMax Audio推Speech- 02語音模型，一次性可以輸入20萬字符

備受關注的音頻技術創新者MiniMax Audio正式發佈了其全新的Speech-02系列語音模型，支持30多種語音，一次性可以輸入20萬字符。爲用戶帶來更真實、更流暢、更便捷的音頻體驗。全新的Speech-02系列是本次更新的核心亮點。據官方介紹，該系列在多語言覆蓋能力上實現了顯著提升，能夠更準確、更地道地呈現多種語言的發音。更令人驚喜的是，Speech-02的人聲相似度高達99%，這意味着合成的語音聽起來更加自然、貼近真人. 此外，該模型還實現了零節奏故障，徹底解決了音頻播放過程中可能出現的

Orpheus TTS:情感表達貼近人類的新一代TTS模型

3月19日，一款名爲Orpheus TTS的開源文本轉語音（TTS）模型正式亮相。這款模型以其接近人類的情感表達、自然流暢的語音效果以及超低延遲的實時輸出流特性，迅速引起關注。據悉，Orpheus TTS在實時對話場景中表現出色，有望爲智能語音交互帶來新突破。Orpheus TTS主打低延遲和高情感表現，其核心特點包括: - **超低延遲**:默認延遲約200毫秒，通過輸入流與模型的KV緩存優化，可將延遲壓縮至25-50毫秒，滿足實時對話需求。 - **情感表達**:語音輸出自然流暢，能夠貼近人類情感，支持豐富的語

亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

相關推薦

Claude Opus 4.5 正式上線亞馬遜 Bedrock，提升 AI 模型性能

兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

亞馬遜推新一代AI語音模型Nova Sonic，捕捉語氣、語調變化和節奏

MiniMax Audio推Speech- 02語音模型，一次性可以輸入20萬字符

Orpheus TTS:情感表達貼近人類的新一代TTS模型

亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

相關推薦

Claude Opus 4.5 正式上線亞馬遜 Bedrock，提升 AI 模型性能

​兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

亞馬遜推新一代AI語音模型Nova Sonic，捕捉語氣、語調變化和節奏

MiniMax Audio推Speech- 02語音模型，一次性可以輸入20萬字符

Orpheus TTS:情感表達貼近人類的新一代TTS模型

兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM