AI 音樂賽道在2026年初迎來了又一次震撼餘震。3月9日,由騰訊與清華大學人機語音交互實驗室聯合研發的音樂基礎模型 SongGeneration2 正式面世。這款模型不僅在技術架構上實現了質的飛躍,更在多個核心維度上直接“斷崖式領先”目前主流的開源模型,甚至在整體質量上完成了對頂級商業模型的正面硬剛。

image.png

三大突破:讓 AI 音樂不再有“塑料感”

SongGeneration2的核心優越性源於其底層架構的全面升級,主要解決了過往 AI 音樂的三大痛點:

  • 高音樂性: 不同於簡單的旋律疊加,該模型能處理複雜的多軌編曲,空間層次感極強。

  • 高歌詞準確性: 咬字不清、幻覺跑調成了過去式。其音素錯誤率(PER)僅爲 8.55%,這一數據顯著優於頂級商業模型Suno v5(12.4%),僅次於MiniMax2.5

  • 極強可控性: 無論是文本描述還是音頻提示,它都能精準遵循,深度定製風格與情緒。

image.png

“雙核”驅動:LLM 與擴散模型的夢幻聯動

在架構設計上,SongGeneration2採用了創新的混合式 LLM-擴散架構:

  • 作曲大腦(LeLM): 負責規劃全局結構與演唱細節,解決“怎麼唱”的問題。

  • 高保真渲染器(Diffusion): 在語言模型的指導下,合成極其複雜的聲學細節。

  • 分層表徵: 首創混合表徵與多軌表徵並行建模,兼顧了旋律的穩定性與音質的細膩度。

真開源、低門檻:普通電腦也能“寫歌”

最令開發者振奮的是,騰訊此次展現了極大的開源誠意。擁有4B 參數的 SongGeneration-v2-large 模型已正式開源,支持中英等多語種生成。令人驚訝的是,它在配備 22GB 顯存 的消費級硬件上即可流暢運行,實現了本地化、私密化創作的可能。

爲了讓用戶即刻體驗,項目組還在 HuggingFace 推出了 SongGeneration-v2-Fast 版本,犧牲極小部分音質以換取極速生成——一分鐘內即可誕生一首完整單曲。

SongGeneration2的表現來看,AI 音樂已經從“極客玩具”正式跨入“商業級應用”的大門。隨着未來支持12G 顯存的 Medium 模型及自動化評估框架的開源,全民“作曲家”的時代或許真的不再遙遠。