AI 音樂賽道在2026年初迎來了又一次震撼餘震。3月9日,由

三大突破:讓 AI 音樂不再有“塑料感”
高音樂性: 不同於簡單的旋律疊加,該模型能處理複雜的多軌編曲,空間層次感極強。
高歌詞準確性: 咬字不清、幻覺跑調成了過去式。其音素錯誤率(PER)僅爲 8.55%,這一數據顯著優於頂級商業模型
(12.4%),僅次於Suno v5 。MiniMax2.5 極強可控性: 無論是文本描述還是音頻提示,它都能精準遵循,深度定製風格與情緒。

“雙核”驅動:LLM 與擴散模型的夢幻聯動
在架構設計上,
作曲大腦(LeLM): 負責規劃全局結構與演唱細節,解決“怎麼唱”的問題。
高保真渲染器(Diffusion): 在語言模型的指導下,合成極其複雜的聲學細節。
分層表徵: 首創混合表徵與多軌表徵並行建模,兼顧了旋律的穩定性與音質的細膩度。
真開源、低門檻:普通電腦也能“寫歌”
最令開發者振奮的是,騰訊此次展現了極大的開源誠意。擁有4B 參數的
爲了讓用戶即刻體驗,項目組還在 HuggingFace 推出了
從
