Suno 壓力大了！騰訊聯手清華髮布 SongGeneration 2，音素錯誤率低至 8.55%

AI 音樂賽道在2026年初迎來了又一次震撼餘震。3月9日，由騰訊與清華大學人機語音交互實驗室聯合研發的音樂基礎模型 SongGeneration2 正式面世。這款模型不僅在技術架構上實現了質的飛躍，更在多個核心維度上直接“斷崖式領先”目前主流的開源模型，甚至在整體質量上完成了對頂級商業模型的正面硬剛。

三大突破:讓 AI 音樂不再有“塑料感”

SongGeneration2的核心優越性源於其底層架構的全面升級，主要解決了過往 AI 音樂的三大痛點:

高音樂性: 不同於簡單的旋律疊加，該模型能處理複雜的多軌編曲，空間層次感極強。
高歌詞準確性: 咬字不清、幻覺跑調成了過去式。其音素錯誤率（PER）僅爲 8.55%，這一數據顯著優於頂級商業模型Suno v5（12.4%），僅次於MiniMax2.5。
極強可控性: 無論是文本描述還是音頻提示，它都能精準遵循，深度定製風格與情緒。

“雙核”驅動:LLM 與擴散模型的夢幻聯動

在架構設計上，SongGeneration2採用了創新的混合式 LLM-擴散架構:

作曲大腦（LeLM）: 負責規劃全局結構與演唱細節，解決“怎麼唱”的問題。
高保真渲染器（Diffusion）: 在語言模型的指導下，合成極其複雜的聲學細節。
分層表徵: 首創混合表徵與多軌表徵並行建模，兼顧了旋律的穩定性與音質的細膩度。

真開源、低門檻:普通電腦也能“寫歌”

最令開發者振奮的是，騰訊此次展現了極大的開源誠意。擁有4B 參數的 SongGeneration-v2-large 模型已正式開源，支持中英等多語種生成。令人驚訝的是，它在配備 22GB 顯存 的消費級硬件上即可流暢運行，實現了本地化、私密化創作的可能。

爲了讓用戶即刻體驗，項目組還在 HuggingFace 推出了 SongGeneration-v2-Fast 版本，犧牲極小部分音質以換取極速生成——一分鐘內即可誕生一首完整單曲。

從SongGeneration2的表現來看，AI 音樂已經從“極客玩具”正式跨入“商業級應用”的大門。隨着未來支持12G 顯存的 Medium 模型及自動化評估框架的開源，全民“作曲家”的時代或許真的不再遙遠。

Suno 壓力大了！騰訊聯手清華髮布 SongGeneration 2，音素錯誤率低至 8.55%

相關推薦

獨角獸人才保衛戰升級:DeepSeek以200億美元高估值融資應對大廠挖角

騰訊發佈並開源全新 AI 大模型混元 Hy3 preview

騰訊推出最新開源語言模型 Hy3 Preview，引領智能時代新潮流

騰訊推混元 3.0 大模型編程能力大幅提升

阿里騰訊爭投DeepSeek推動估值衝刺200億美元，DeepSeek v4與混元3.0發佈在即

Suno 壓力大了！騰訊聯手清華髮布 SongGeneration 2，音素錯誤率低至 8.55%

相關推薦

獨角獸人才保衛戰升級:DeepSeek以200億美元高估值融資應對大廠挖角

​騰訊發佈並開源全新 AI 大模型混元 Hy3 preview

騰訊推出最新開源語言模型 Hy3 Preview，引領智能時代新潮流

騰訊推混元 3.0 大模型 編程能力大幅提升

阿里騰訊爭投DeepSeek推動估值衝刺200億美元，DeepSeek v4與混元3.0發佈在即

騰訊發佈並開源全新 AI 大模型混元 Hy3 preview

騰訊推混元 3.0 大模型編程能力大幅提升