最近,字節跳動放出了一個音樂創作的新玩意,叫 Seed-Music。這個神奇的音樂生成模型,可以讓你通過多種輸入方式(比如文字描述、音頻參考、樂譜、甚至語音提示)輕鬆生成和音樂,簡直就像擁有一個音樂魔法師!
Seed-Music 結合了自迴歸語言模型和擴散模型,不僅能夠生成高質量的音樂作品,還能讓你對音樂的細節進行精確控制。無論你是想歌詞配樂,還是想改編旋律,這裏統統沒問題。甚至,你可以上傳一段短小的語音片段,系統會自動將它轉化爲完整的歌聲,方便又高效。
功能強大的 Seed-Music 不僅支持聲樂和器樂的生成,還包括了歌聲合成、歌聲轉換和音樂編輯等一系列功能,能夠滿足不同用戶的需求。你可以通過簡單的文本描述生成流行樂,也能通過音頻提示調整音樂風格,真是讓人耳目一新。
更有趣的是,Seed-Music 的架構分爲三個模塊:表示學習模塊、生成模塊和渲染模塊,這些模塊像樂隊一樣齊心協力,通過多模態輸入生成高質量的音樂。
表示學習模塊將原始音頻信號壓縮成三種中間表示,適用於不同的音樂生成和編輯任務。生成模塊則通過自迴歸模型和擴散模型,將用戶的輸入轉化爲音樂表示。而最後的渲染模塊則負責將這些中間表示變成你耳朵可享受的高質量音頻。
爲了保證音樂的質量,Seed-Music 採用了多種技術:自迴歸語言模型逐步生成音頻符號,擴散模型則通過去噪手段讓音樂更加清晰,而聲碼器則將這些音樂 “代碼” 翻譯成可播放的高保真聲音。
Seed-Music 的訓練過程也很有趣,分爲預訓練、微調和後訓練三個階段。通過大規模的音樂數據,模型獲得基礎能力,再通過微調提升具體任務的表現,最後還會通過強化學習不斷優化生成結果。
項目地址:https://team.doubao.com/en/special/seed-music