ACE-Step,一款由ACE Studio與StepFun聯合開發的音樂生成“基礎模型”,於近日正式亮相,被譽爲“音樂界的Stable Diffusion”。該模型以其驚人的生成速度和多樣化功能引發行業熱議,支持19種語言,可在短短20秒內生成一首長達4分鐘的完整音樂作品,效率比主流模型快15倍以上。
核心功能亮點:從歌詞到完整歌曲一氣呵成
ACE-Step以其強大的生成能力重新定義了AI音樂創作。其核心功能包括:
歌詞驅動創作:輸入歌詞,模型自動生成旋律並演唱完整歌曲;
風格化編曲:根據指定的風格標籤(如說唱、電子樂、流行等),自動生成伴奏和配器;
精準修改:支持對歌曲某段歌詞進行修改,而不影響原有旋律的連貫性;
多樣化生成:能夠生成帶風格的說唱、電子樂、人聲或複雜配器,滿足不同音樂場景需求。
社交媒體上,開發者與音樂創作者對ACE-Step的“一句歌詞快速寫歌”功能讚不絕口,認爲其爲音樂創作提供了前所未有的便捷性與靈活性。
技術突破:高效生成與多語言支持
ACE-Step基於DiT(Diffusion Transformer)架構,採用輕量化設計,支持在消費級GPU上運行,顯著降低了硬件門檻。在A100GPU上,模型僅需20秒即可生成4分鐘的高質量音樂,生成速度比傳統模型快15倍以上。此外,ACE-Step支持19種語言,覆蓋英語、中文、日語、西班牙語等多種語系,爲全球音樂創作者提供了廣泛的適用性。AIbase編輯團隊瞭解到,該模型通過與StepFun的Step-1(130億參數語言模型)結合,經過音頻上下文預訓練和任務特定後訓練,實現了跨模態音樂理解與生成的高效融合。
開源賦能,社區驅動創新
作爲一款開源模型,ACE-Step通過GitHub(stepfun-ai/Step-Audio)向開發者開放,允許社區對其進行微調以適配多樣化的音樂任務。ACE Studio與StepFun表示,ACE-Step的簡單架構和低硬件要求使其易於擴展,未來有望支持更多音樂風格和創作場景。AIbase觀察到,社區開發者已開始基於ACE-Step開發定製化的音樂生成工具,進一步推動了AI音樂生態的繁榮。
AI音樂創作的未來標杆
ACE-Step的發佈不僅展示了ACE Studio與StepFun在AI音樂生成領域的深厚技術積累,也爲全球音樂創作者提供了一個高效、靈活的創作平臺。AIbase編輯團隊認爲,ACE-Step的快速生成能力和多語言支持將大幅降低音樂創作的門檻,助力音樂家、獨立創作者乃至影視製作團隊實現創意落地。未來,隨着模型的迭代和社區的持續貢獻,ACE-Step有望成爲AI音樂創作領域的標杆,引領“人機共創”的新潮流。
項目地址:https://ace-step.github.io/