MiniMax今日宣佈推出新一代語音生成模型Speech2.5,這一升級版模型在全球語音技術領域再次樹立了新的標杆,進一步鞏固了其作爲全球最強語音模型的地位。Speech2.5在多語種表現力、音色復刻以及語種覆蓋範圍等方面均實現了顯著提升。
與今年5月發佈的Speech02相比,Speech2.5在多語種表現力上取得了飛躍性進步,尤其在中文方面繼續保持全球最強水平,同時英文及其他多語種的表現也得到了全面提升。該模型在字錯率、相似度和自然韻律度等方面均超越了前代產品,用戶可以在40種語言之間輕鬆切換,無論是商務會議、日常對話還是英文播客,都能提供更加自然流暢的語音體驗,徹底擺脫了以往語音合成中常見的“機械感”。
在音色復刻方面,Speech2.5達到了行業天花板級的精度。它不僅能夠跨語種復刻口音,還能保留同語種不同地區的口音特色,甚至能夠精準復刻特殊年齡的聲音。無論是在極限場景下,還是在跨語種切換時,Speech2.5都能保持高度逼真的音色細節。例如,用英國女王的經典發音來介紹Speech2.5,模型能夠完美還原其獨特的停頓、節奏和發音處理,甚至在意大利語和英語之間切換時,依然能夠保留口音特色。
此外,Speech2.5的多語種覆蓋範圍也從之前的版本大幅擴展至40個語種,新增了包括保加利亞語、丹麥語、希伯來語、馬來語、波斯語、斯洛伐克語、瑞典語、克羅地亞語、菲律賓語、匈牙利語、挪威語、斯洛文尼亞語、加泰羅尼亞語、尼諾斯克、泰米爾語和阿非利卡語等在內的多種語言。這一擴展使得Speech2.5在全球化內容創作中更具優勢,無論是跨境電商、出海客服還是本地化營銷,用戶都能一鍵生成高質量的多語種語音內容。
Speech2.5的推出爲多個行業帶來了巨大的便利和創新機會。對於企業客戶而言,多語種客服和跨國廣告配音的成本將大幅降低,以往需要高昂費用和長時間製作的全球產品宣傳片配音,如今只需10分鐘即可生成。對於創作者來說,逼真的個人聲線復刻功能使他們能夠輕鬆製作全球短視頻爆款,實現一人開口說40國語言的創意表達。教育者也從中受益,小衆語言課件的製作週期從數週縮短至10分鐘,跨國方言教材的定製也變得更加便捷。
Speech2.5在Speech02的基礎上再次升級,不僅延續了全球最高的性價比,還進一步提升了性能。目前,MiniMax Speech語音模型已在全球範圍內被廣泛採用,包括海外的Vapi、Pipecat等Agent平臺,以及Hedra、Icon、Syllaby等頭部AI應用,國內的高途教育、喜馬拉雅、網易、Rokid眼鏡等頭部平臺及產品也紛紛接入MiniMax Speech。
MiniMax開放平臺:
minimaxi.com/platform_overview
MiniMax Audio:
minimaxi.com/audio