在人工智能領域的快速發展中,國產大模型的進步速度讓人驚歎。早在今年初,DeepSeek-R1以超低成本獲得了超越 OpenAI 的表現,令人重新審視國外大模型的壟斷地位。如今,MiniMax 再次帶來了重磅消息:其全新一代文本轉語音(TTS)模型 “Speech-02” 在國際權威的語音評測榜單 Artificial Analysis 上強勢登頂,擊敗了 OpenAI 和 ElevenLabs 等行業巨頭。

image.png

Speech-02的出色表現體現在多個關鍵指標上,例如字錯率(WER)和說話人相似度(SIM),均取得了新的最佳結果(SOTA),令國外網友感到震驚,紛紛稱讚 MiniMax 爲音頻領域的破局者。更令人驚喜的是,Speech-02的成本僅爲 ElevenLabs 競爭產品的四分之一,展現了其高性價比的優勢。

那麼,Speech-02爲何能夠取得如此驕人的成績呢?背後有兩項關鍵技術創新。一方面,Speech-02實現了真正的零樣本(zero-shot)語音克隆。這意味着只需給定一段參考語音,無需額外文本,模型就能迅速生成與目標語音高度相似的音頻。這項技術顯著節省了時間和資源,以往的合成方法通常需要大量樣本數據。

image.png

另一方面,MiniMax 採用了全新的 Flow-VAE 架構,這種架構提升了語音生成過程中的信息表徵能力,進而改善了合成音頻的質量和相似度。通過引入一個可學習的 speaker 編碼器,Speech-02能專注於說話者獨特的發音特點,無論是音色、語調還是節奏,均能精準再現,避免了傳統合成語音的生硬感。

image.png

此外,MiniMax 還引入了 T2V 框架,將開放式自然語言描述與結構化標籤信息相結合,進一步提升了語音合成的靈活性和可控性。這意味着,用戶不僅可以提供參考音頻,還可以通過簡單的描述來生成所需音色的語音,從而極大地增強了系統的多功能性。

Speech-02的成功再次印證了國產大模型在語音合成領域的強大實力,並向世界展示了中國在人工智能技術上的快速崛起。

技術文檔:https://minimax-ai.github.io/tts_tech_report/