字節推音樂生成神器 Seed-Music 支持多樣化輸入和精確控制

最近，字節跳動放出了一個音樂創作的新玩意，叫 Seed-Music。這個神奇的音樂生成模型，可以讓你通過多種輸入方式（比如文字描述、音頻參考、樂譜、甚至語音提示）輕鬆生成和音樂，簡直就像擁有一個音樂魔法師!

Seed-Music 結合了自迴歸語言模型和擴散模型，不僅能夠生成高質量的音樂作品，還能讓你對音樂的細節進行精確控制。無論你是想歌詞配樂，還是想改編旋律，這裏統統沒問題。甚至，你可以上傳一段短小的語音片段，系統會自動將它轉化爲完整的歌聲，方便又高效。

功能強大的 Seed-Music 不僅支持聲樂和器樂的生成，還包括了歌聲合成、歌聲轉換和音樂編輯等一系列功能，能夠滿足不同用戶的需求。你可以通過簡單的文本描述生成流行樂，也能通過音頻提示調整音樂風格，真是讓人耳目一新。

更有趣的是，Seed-Music 的架構分爲三個模塊:表示學習模塊、生成模塊和渲染模塊，這些模塊像樂隊一樣齊心協力，通過多模態輸入生成高質量的音樂。

表示學習模塊將原始音頻信號壓縮成三種中間表示，適用於不同的音樂生成和編輯任務。生成模塊則通過自迴歸模型和擴散模型，將用戶的輸入轉化爲音樂表示。而最後的渲染模塊則負責將這些中間表示變成你耳朵可享受的高質量音頻。

爲了保證音樂的質量，Seed-Music 採用了多種技術:自迴歸語言模型逐步生成音頻符號，擴散模型則通過去噪手段讓音樂更加清晰，而聲碼器則將這些音樂 “代碼” 翻譯成可播放的高保真聲音。

Seed-Music 的訓練過程也很有趣，分爲預訓練、微調和後訓練三個階段。通過大規模的音樂數據，模型獲得基礎能力，再通過微調提升具體任務的表現，最後還會通過強化學習不斷優化生成結果。

項目地址：https://team.doubao.com/en/special/seed-music

AI創作新高度：字節跳動發佈Seedream 5.0 Pro，開啓交互式精準編輯時代

字節跳動發佈多模態AI模型Seedream5.0Pro，推動圖像創作從生成邁向設計。該模型在圖文匹配、結構合理性、文字渲染和畫面質感上顯著提升，並重點突破複雜信息可視化能力，能精準解析意圖，將數據、概念和密集文字轉化爲專業視覺呈現。

字節豆包 AI 手機項目生變：硬件負責人離職，項目進入“調整期”

字節跳動AI硬件團隊Ocean核心成員、豆包手機硬件產品負責人林夕近期離職，成爲公司2024年啓動AI手機項目以來首位核心硬件負責人出走，引發外界對項目前景的猜測。內部消息人士否認“豆包手機項目徹底消失”傳聞，稱項目並未關停，而是轉入新調整階段。

字節跳動 Seedance2.5模型將於7月16日全量開放 API