2025年8月15日,崑崙萬維集團宣佈正式上線Mureka V7.5模型,爲AI音樂創作領域帶來了新的突破。這一消息標誌着崑崙萬維SkyWork AI技術發佈周的圓滿收官。在爲期五天的發佈週期內,崑崙萬維每天推出一款新模型,覆蓋了多模態AI核心場景的前沿技術,包括SkyReels-A3、Matrix-Game2.0、Matrix-3D、Skywork UniPic2.0和Skywork Deep Research Agent等模型。

Mureka V7.5的發佈是此次技術發佈周的壓軸之作,它在中文歌曲創作方面展現了卓越的能力。該模型不僅在音色和演奏技法上實現了大幅提升,還在咬字和情感表現上取得了顯著進步。Mureka V7.5憑藉對中文曲風和元素的深刻理解,能夠精準地傳達中文音樂的藝術神韻和情感色彩。它涵蓋了從傳統民歌、戲曲到經典華語流行金曲以及當代民謠音樂等多種風格,展現了中文音樂的多樣性與文化特性。

爲了進一步提升人聲表現的真實性與情感深度,Mureka V7.5優化了自動語音識別(ASR)技術。這項技術深入到演唱的微觀層面,能夠精準識別唱詞,並分析真實演唱中的氣息運用、情感起伏和唱法細節。通過智能劃分樂句、確定自然的換氣與停頓位置,Mureka V7.5顯著提升了生成人聲的段落清晰度與結構真實感。這些細節的捕捉反饋給生成模型後,極大地增強了人聲的自然度、呼吸感以及情感表達的真實性,有效削弱了機械感,使AI演繹的歌曲在流暢性上更貼近真人演唱,尤其在處理中文歌曲特有的韻律和氣息要求時表現出色。

微信截圖_20250815094600.png

與此同時,崑崙萬維語音團隊還推出了MoE-TTS——首個基於Mixture of Experts(MOE)的角色描述語音合成框架。作爲一項面向開放描述場景的研究性工作,MoE-TTS能夠讓用戶通過自然語言描述精準控制聲音特徵與風格。即使僅使用開源數據,該技術在角色貼合度上也能對標甚至超越閉源商業產品。MoE-TTS的推出有望解決描述性語音合成領域長期存在的難題,例如在面對比喻、類比等複雜修辭時,生成的語音往往偏離用戶預期。該框架結合了預訓練大語言模型(LLM)的文本能力和語音專家模塊,通過模態路由確保各模態獨立優化、互不干擾,實現了“知識零損失”的泛化理解能力。在涵蓋域內與域外描述的雙測試集上,MoE-TTS在風格表現力貼合度和整體貼合度等聲學控制上表現出色,展現了其在複雜描述匹配度上的優勢。

MoE-TTS的發佈不僅爲學術界提供了可復現的開放描述TTS解決方案,也證明了模態解耦加知識凍結遷移的技術路徑在語音合成中的巨大潛力。這一突破有望推動行業從“封閉標籤式控制”走向“自然語言自由控制”的新範式,加速數字人、虛擬助手和沉浸式內容創作的體驗升級。目前,MoE-TTS仍在迭代中,後續計劃將其集成至Mureka-Speech平臺,作爲角色配音的基座模型,爲全球開發者和創作者提供開放、高效、可定製的描述性語音合成能力。

崑崙萬維集團通過Mureka V7.5和MoE-TTS的發佈,展示了其在AI音樂創作和語音合成領域的強大實力與創新能力。這些技術的推出不僅爲音樂創作和語音合成帶來了新的可能性,也爲相關領域的研究和發展提供了新的思路和方向。全球用戶可以通過訪問www.mureka.ai體驗全新的V7.5模型,探索音樂創作的無限可能。