MiniMax Speech 2.5語音生成模型上線：多語種表現力更強

MiniMax今日宣佈推出新一代語音生成模型Speech2.5，這一升級版模型在全球語音技術領域再次樹立了新的標杆，進一步鞏固了其作爲全球最強語音模型的地位。Speech2.5在多語種表現力、音色復刻以及語種覆蓋範圍等方面均實現了顯著提升。

與今年5月發佈的Speech02相比，Speech2.5在多語種表現力上取得了飛躍性進步，尤其在中文方面繼續保持全球最強水平，同時英文及其他多語種的表現也得到了全面提升。該模型在字錯率、相似度和自然韻律度等方面均超越了前代產品，用戶可以在40種語言之間輕鬆切換，無論是商務會議、日常對話還是英文播客，都能提供更加自然流暢的語音體驗，徹底擺脫了以往語音合成中常見的“機械感”。

微信截圖_20250807091241.png

在音色復刻方面，Speech2.5達到了行業天花板級的精度。它不僅能夠跨語種復刻口音，還能保留同語種不同地區的口音特色，甚至能夠精準復刻特殊年齡的聲音。無論是在極限場景下，還是在跨語種切換時，Speech2.5都能保持高度逼真的音色細節。例如，用英國女王的經典發音來介紹Speech2.5，模型能夠完美還原其獨特的停頓、節奏和發音處理，甚至在意大利語和英語之間切換時，依然能夠保留口音特色。

此外，Speech2.5的多語種覆蓋範圍也從之前的版本大幅擴展至40個語種，新增了包括保加利亞語、丹麥語、希伯來語、馬來語、波斯語、斯洛伐克語、瑞典語、克羅地亞語、菲律賓語、匈牙利語、挪威語、斯洛文尼亞語、加泰羅尼亞語、尼諾斯克、泰米爾語和阿非利卡語等在內的多種語言。這一擴展使得Speech2.5在全球化內容創作中更具優勢，無論是跨境電商、出海客服還是本地化營銷，用戶都能一鍵生成高質量的多語種語音內容。

Speech2.5的推出爲多個行業帶來了巨大的便利和創新機會。對於企業客戶而言，多語種客服和跨國廣告配音的成本將大幅降低，以往需要高昂費用和長時間製作的全球產品宣傳片配音，如今只需10分鐘即可生成。對於創作者來說，逼真的個人聲線復刻功能使他們能夠輕鬆製作全球短視頻爆款，實現一人開口說40國語言的創意表達。教育者也從中受益，小衆語言課件的製作週期從數週縮短至10分鐘，跨國方言教材的定製也變得更加便捷。

Speech2.5在Speech02的基礎上再次升級，不僅延續了全球最高的性價比，還進一步提升了性能。目前，MiniMax Speech語音模型已在全球範圍內被廣泛採用，包括海外的Vapi、Pipecat等Agent平臺，以及Hedra、Icon、Syllaby等頭部AI應用，國內的高途教育、喜馬拉雅、網易、Rokid眼鏡等頭部平臺及產品也紛紛接入MiniMax Speech。

MiniMax開放平臺:

minimaxi.com/platform_overview

MiniMax Audio:

minimaxi.com/audio

MiniMax Speech 2.5語音生成模型上線：多語種表現力更強

相關推薦

螞蟻百靈發佈新一代原生混合推理模型Ling-3.0-Flash

皮查伊確認Gemini4 已投入訓練，谷歌AI旗艦型號年底見分曉

腦電波訓練機器人：物理AI的下一個突破口藏在人腦信號裏

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

千問辦公悄然開啓內測主打25項企業 IM 能力與多形態產物一站式交付

MiniMax Speech 2.5語音生成模型上線：多語種表現力更強

相關推薦

螞蟻百靈發佈新一代原生混合推理模型Ling-3.0-Flash

皮查伊確認Gemini4 已投入訓練，谷歌AI旗艦型號年底見分曉

​腦電波訓練機器人：物理AI的下一個突破口藏在人腦信號裏

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

千問辦公悄然開啓內測 主打25項企業 IM 能力與多形態產物一站式交付

腦電波訓練機器人：物理AI的下一個突破口藏在人腦信號裏

千問辦公悄然開啓內測主打25項企業 IM 能力與多形態產物一站式交付