稀宇科技(MiniMax)宣佈其Speech-02語音模型在Artificial Analysis榜單中持續保持全球領先地位,並正式推出Voice Design音色設計功能。該功能允許用戶通過自然語言描述生成個性化音色,實現“任意語言 × 任意口音 × 任意音色”的全自定義組合,進一步降低語音合成領域的技術門檻。

據稀宇科技介紹,Voice Design功能可精準控制音色的多個維度,包括音頻質量、發聲方式、情感基調及人物畫像。用戶僅需輸入文本描述,模型即可自動拆解需求並生成對應的音色編碼。例如,用戶可描述“帶有積極鼓勵的AI助手,語調積極,韻律變化豐富”,或“嚴厲的AI助手,女聲,語速較快,音色明亮”,系統將生成符合要求的語音。

微信截圖_20250623093512.png

爲驗證功能效果,稀宇科技展示了多組音色示例:古代俠客的洪亮正直、懸疑故事播音員的低沉磁性、權威新聞女主播的清晰利落,以及充滿活力的推銷員語速等。這些示例展示了Voice Design在音色定製方面的靈活性,可滿足不同場景的語音需求。

稀宇科技指出,Voice Design的推出解決了語音合成領域的兩大挑戰:一是傳統音色庫難以匹配細分場景的多樣化需求,二是復刻音色存在版權風險且操作複雜。通過Voice Design,用戶無需準備高質量輸入素材,即可快速生成理想音色,並可存儲用於後續音頻創作。

目前,稀宇科技的兩代Speech模型已累計生成超過1.5億小時的語音,與全球超30個國家的客戶達成合作。此次Voice Design功能的上線,標誌着稀宇科技在語音技術領域的持續創新,並致力於爲全球用戶提供更便捷、高效的語音解決方案。

用戶可通過稀宇科技國內版平臺(minimaxi.com/audio)或海外版平臺(minimax.io/audio)體驗Voice Design功能,探索語音合成的無限可能。