備受關注的音頻技術創新者MiniMax Audio正式發佈了其全新的Speech-02系列語音模型,支持30多種語音,一次性可以輸入20萬字符。爲用戶帶來更真實、更流暢、更便捷的音頻體驗。
全新的Speech-02系列是本次更新的核心亮點。據官方介紹,該系列在多語言覆蓋能力上實現了顯著提升,能夠更準確、更地道地呈現多種語言的發音。
更令人驚喜的是,Speech-02的人聲相似度高達99%,這意味着合成的語音聽起來更加自然、貼近真人. 此外,該模型還實現了零節奏故障,徹底解決了音頻播放過程中可能出現的卡頓和節奏不穩問題,保證了聽感的連貫性和流暢性。值得強調的是,儘管在多方面進行了重大升級,Speech-02系列依然維持了原有的親民價格。
除了核心的語音合成技術的提升,MiniMax Audio還推出了多項實用新功能。全新的“Read Anything”功能允許用戶通過上傳本地文件或粘貼網絡URL,即可隨時隨地收聽各類內容,極大地拓展了用戶獲取音頻信息的渠道 [1, 我們之前的對話]。無論是文檔、電子書還是網頁文章,用戶都可以輕鬆轉化爲自己喜歡的音色進行聆聽。
針對長文本處理的需求,MiniMax Audio推出了強大的“Long-Text Mode(長文本))”,該模式單次輸入即可支持高達20萬字符的異步語音合成,這使得創建音頻書籍、播客等長音頻內容變得前所未有的便捷,徹底解決了以往長文本合成時需要分段處理的困擾。
爲了優化用戶的使用體驗,MiniMax Audio還對歷史管理功能進行了增強,用戶可以更方便地查看、刪除和整理自己的語音合成歷史和設置。同時,新增的“Discovery Hub”將所有新功能和更新內容集中展示,幫助用戶快速瞭解和掌握MiniMax Audio的最新動態。
體驗入口:https://www.minimax.io/audio