MiniMax Audio推Speech- 02語音模型，一次性可以輸入20萬字符

備受關注的音頻技術創新者MiniMax Audio正式發佈了其全新的Speech-02系列語音模型，支持30多種語音，一次性可以輸入20萬字符。爲用戶帶來更真實、更流暢、更便捷的音頻體驗。

全新的Speech-02系列是本次更新的核心亮點。據官方介紹，該系列在多語言覆蓋能力上實現了顯著提升，能夠更準確、更地道地呈現多種語言的發音。

更令人驚喜的是，Speech-02的人聲相似度高達99%，這意味着合成的語音聽起來更加自然、貼近真人. 此外，該模型還實現了零節奏故障，徹底解決了音頻播放過程中可能出現的卡頓和節奏不穩問題，保證了聽感的連貫性和流暢性。值得強調的是，儘管在多方面進行了重大升級，Speech-02系列依然維持了原有的親民價格。

除了核心的語音合成技術的提升，MiniMax Audio還推出了多項實用新功能。全新的“Read Anything”功能允許用戶通過上傳本地文件或粘貼網絡URL，即可隨時隨地收聽各類內容，極大地拓展了用戶獲取音頻信息的渠道 [1，我們之前的對話]。無論是文檔、電子書還是網頁文章，用戶都可以輕鬆轉化爲自己喜歡的音色進行聆聽。

針對長文本處理的需求，MiniMax Audio推出了強大的“Long-Text Mode（長文本））”，該模式單次輸入即可支持高達20萬字符的異步語音合成，這使得創建音頻書籍、播客等長音頻內容變得前所未有的便捷，徹底解決了以往長文本合成時需要分段處理的困擾。

爲了優化用戶的使用體驗，MiniMax Audio還對歷史管理功能進行了增強，用戶可以更方便地查看、刪除和整理自己的語音合成歷史和設置。同時，新增的“Discovery Hub”將所有新功能和更新內容集中展示，幫助用戶快速瞭解和掌握MiniMax Audio的最新動態。

體驗入口:https://www.minimax.io/audio

兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

在 AI 語音生成領域，競爭正變得愈發激烈。近日，來自韓國的兩名本科生合夥創建了一款名爲 Dia 的 AI 語音模型，聲稱其功能可與谷歌的 NotebookLM 相媲美。儘管這兩位創始人在 AI 領域的經驗尚淺，但他們在短短三個月內，成功開發出一款開放獲取的語音生成工具。Dia 的訓練依賴於谷歌的 TPU Research Cloud 項目，該項目爲研究人員提供免費的 TPU AI 芯片使用權限。Dia 模型擁有1.6億個參數，能夠根據給定的腳本生成對話。用戶還可以自由定製發言人的語調，並插入諸如咳嗽、笑聲等非語言提示

亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

亞馬遜近日發佈了其最新的 AI 語音模型 ——Nova Sonic，這一新技術標誌着該公司在人工智能語音領域的重要進展。Nova Sonic 能夠快速處理語音輸入並生成自然流暢的語音輸出，其在速度、識別準確性以及對話質量等方面已達到了與 OpenAI 和谷歌等行業領軍企業的頂尖水平。與其他 AI 語音模型相比，Nova Sonic 在性價比方面表現突出，價格竟然比 OpenAI 的 GPT-4o 便宜約 80%。這種經濟實惠的解決方案無疑爲企業開發 AI 應用提供了更具吸引力的選擇。Nova Sonic 通過亞馬遜 Bedrock 開發者平臺進行服務，

亞馬遜推新一代AI語音模型Nova Sonic，捕捉語氣、語調變化和節奏

亞馬遜近日推出了一款新型 AI 語音模型 ——Nova Sonic，旨在提升其語音助手 Alexa + 的性能。Nova Sonic 被設計用於本地處理語音並生成自然流暢的回覆，標誌着亞馬遜在語音識別技術領域的又一次突破。Nova Sonic 採取了一種全新的整合方式，將語音理解和生成的能力統一到一個模型中。這一創新不僅簡化了語音應用的開發過程，還能根據語音輸入的聲學背景（如語調和風格）來調整生成的語音響應，從而實現更加自然的對話。Nova Sonic 甚至能夠理解人類對話中的細微之處，包括說話者的自然停

Speech-02正式上線:與Hedra攜手打造高質量語音驅動內容

來自Hailuo_AI旗下的Speech-02的新工具正式上線，爲內容創作者帶來了全新的可能性。據悉，這款工具能夠以自然的語氣和富有表現力的表達方式，生成超過30種語言的畫外音，爲用戶提供多樣化且高質量的音頻創作體驗。更令人興奮的是，Speech-02與Hedra平臺的無縫結合，讓用戶能夠將音頻轉化爲包含角色、場景和故事的豐富視覺內容，進一步提升創作的深度與廣度。Speech-02的推出標誌着語音驅動內容創作領域的一次重要進步。無論是需要爲視頻配音、製作多語言教育內容，還是爲營銷活動設

Orpheus TTS:情感表達貼近人類的新一代TTS模型

3月19日，一款名爲Orpheus TTS的開源文本轉語音（TTS）模型正式亮相。這款模型以其接近人類的情感表達、自然流暢的語音效果以及超低延遲的實時輸出流特性，迅速引起關注。據悉，Orpheus TTS在實時對話場景中表現出色，有望爲智能語音交互帶來新突破。Orpheus TTS主打低延遲和高情感表現，其核心特點包括: - **超低延遲**:默認延遲約200毫秒，通過輸入流與模型的KV緩存優化，可將延遲壓縮至25-50毫秒，滿足實時對話需求。 - **情感表達**:語音輸出自然流暢，能夠貼近人類情感，支持豐富的語