Stability AI最近又開源了一個模型,名字有點長,叫“Adversarial Post-Training 加速的快速文字轉音頻生成”,聽起來很硬核對不對?但你只需要記住它的核心特點:超!級!快!而!且!超!級!輕!
以前我們用的文字轉語音,就像老式的燒水壺,得等半天才能咕嘟咕嘟地出聲。而且那些高質量的模型,往往體型巨大,像個“胖墩”,塞到手機里根本跑不動。這讓很多需要實時生成音頻的創意應用(比如音樂製作、遊戲音效)非常頭疼,延遲太高,根本沒法用!
論文地址:https://arxiv.org/pdf/2505.08175
模型地址:https://huggingface.co/stabilityai/stable-audio-open-small
Stability AI 這次就是要終結這個“龜速時代”!他們發佈了一個只有341M 參數的文字轉語音模型(這在動輒幾十億、上千億參數的模型面前,簡直就是個“苗條精”!),最關鍵的是,它能以驚人的速度生成高質量音頻!
“閃電小子”爲啥這麼快?祕密武器大公開!
這個“閃電小子”爲啥能跑這麼快呢?它藏着幾個祕密武器:
ARC 後訓練:不是蒸餾,勝似蒸餾!
很多讓模型變快的方法,常用的是“蒸餾”,就是讓一個大模型(老師)教一個小模型(學生)怎麼快速生成結果。但這套方法有點麻煩,要麼訓練成本高,要麼需要存儲大量老師生成的“作業”。Stability AI 搞了個新花樣,叫做 ARC(Adversarial Relativistic-Contrastive)後訓練。 這是一種對抗性加速算法,不!基!於!蒸!餾! 它讓模型在訓練後變得更快,而且效果一點不輸那些複雜的蒸餾方法。
相對抗性損失:跟“以假亂真”對着幹!
ARC 裏面的“AR”就是“對抗性相對損失”。 傳統的對抗網絡(GAN)是生成器努力生成逼真的假樣本騙過判別器,判別器努力區分真假。這個“相對抗性損失”更狠!它讓生成器不僅要生成逼真的樣本,還要讓生成的樣本比真實樣本更“真”!而判別器呢,就是要讓真實樣本比生成的樣本更“真”! 它們之間就像在比誰更能“以假亂真”,但這個“真”是相對的。 這個想法很有趣,它迫使生成器不斷提高生成音頻的質量。而且,因爲是文字轉語音模型,他們直接用相同文字描述的真實音頻和生成音頻來做對比,提供了更強的訓練信號。
對比損失:讓模型“聽懂人話”!
光是生成逼真的音頻還不夠,還得“聽懂人話”,生成符合文字描述的聲音。傳統的對抗性訓練有時候會忽略文字信息,生成一些不搭邊的聲音。爲了解決這個問題,ARC 加入了“對比損失”。 它訓練判別器,讓判別器能區分帶有正確文字描述的音頻和帶有錯誤文字描述(比如文字被打亂了)的音頻。 判別器會努力讓正確配對的音頻和文字之間的距離更近,錯誤配對的距離更遠。 這就像訓練判別器成爲一個音頻-文字的“對對碰”專家,讓它更好地理解文字的含義。 有了這個“專家”的指導,生成器就能更好地生成符合文字描述的音頻了。 而且,這種方法還能避免使用 CFG(Classifier-Free Guidance),那玩意兒雖然能提高文本一致性,但有時候會犧牲生成的多樣性。
乒乓採樣:左右騰挪,步步逼近!
傳統的擴散模型生成音頻需要很多步,一步步去噪。這個“閃電小子”用了“乒乓採樣”的技術。 它不是簡單的一步去噪到底,而是在去噪和加噪之間來回切換,有點像打乒乓球,在不同噪聲水平之間來回“擊打”,每擊打一次,生成的音頻就更接近真實,質量就更高。 而且,它可以用更少的步數達到很好的效果。
架構優化:“苗條”又強壯!
除了新的訓練方法,模型本身的架構也進行了優化,是在 Stable Audio Open (SAO) 的基礎上進行了改進。 工程師們把模型的一些“零部件”做得更小巧高效,比如把 Diffusion Transformer (DiT) 的維度和層數都減少了,還加入了一些新的技術讓它更穩定。 這些優化讓模型的參數數量大大減少,只有341M,同時又不犧牲性能。
性能炸裂:H100上75毫秒,手機上7秒!
這些祕密武器加起來,就讓這個模型的速度快到驚人!在專業的 H100GPU 上,它可以在大約75毫秒內生成12秒的44.1kHz 立體聲音頻! 這是什麼概念?比原始的 SAO 模型快了100倍! 幾乎是瞬間生成!
更厲害的是,他們還專門針對移動設備進行了優化。在手機 CPU 上,它也能在大約7秒內生成12秒的音頻! 這可能是目前最快的手機端文字轉語音模型了! 想象一下,以後你在手機上用各種創意應用,實時生成想要的音效或音樂片段,再也不是夢想!
而且,這個模型在保證速度的同時,並沒有明顯犧牲音頻質量。 論文中各種專業的音頻評估指標(比如 FD openl3 、KL-passt、CLAP score)顯示,它的音頻質量可以和那些更大的、更慢的模型相媲美。
多樣性爆棚:不僅快,而且腦洞大開!
很多加速模型爲了追求速度,會犧牲生成結果的多樣性,生成的聲音聽起來都差不多,很無聊。但這個“閃電小子”不一樣!它不僅速度快,生成的聲音多樣性還更高!
論文中提出了一個新的評估指標 CCDS(CLAP Conditional Diversity Score),專門用來衡量模型在給定相同文字描述下生成不同聲音的能力。 結果顯示,這個模型在 CCDS 上的得分很高,而且通過主觀聽力測試也證實了這一點——大家覺得它生成的聲音更多樣、更有創意! 這意味着,如果你輸入一段文字,讓它生成一種聲音,它可能會給你好幾種不同風格、不同感覺的結果,大大激發你的創作靈感!
更多驚喜:音頻轉音頻,玩轉聲音風格!
除了文字轉語音,這個模型還有一個隱藏技能——音頻轉音頻! 簡單來說,你可以給它一段音頻作爲輸入,然後用文字描述你想要的聲音風格,它就能把輸入的音頻轉換成新的風格!
比如,你可以輸入一段自己的說話聲,然後用文字描述“變成機器人的聲音”,它就能給你一段機器人版的說話聲!或者輸入一段鼓點,用文字描述“變成拉丁風格的鼓點”,它就能給你一段充滿拉丁風情的鼓點! 這簡直就是聲音界的“風格遷移”,太酷炫了!而且這個功能不需要額外的訓練,直接就能用!
落地應用:手機裏的“聲音魔法師”!
這個超快、超輕、高質量的模型,爲文字轉語音技術的落地應用打開了新的大門。尤其是在移動設備上,以前受限於算力,很難運行復雜的音頻生成模型。現在,有了這個“閃電小子”,你的手機可以變成一個強大的“聲音魔法師”,隨時隨地幫你生成各種創意音頻。
想象一下,你可以在手機上實時爲視頻配音,爲遊戲生成獨特的音效,或者僅僅是玩轉各種有趣的聲音效果。而且因爲它對文字描述的理解能力強,你可以更精準地控制生成的聲音。
當然,目前模型還有一些需要改進的地方,比如它對內存和存儲空間還有一定的要求。 但 Stability AI 已經邁出了關鍵的一步,讓高性能的文字轉語音技術真正走進了尋常百姓家(的手機裏)!
小小的模型,大大的能量!
Stability AI 開源的這個341M 超輕量文字轉語音模型,無疑是一個重磅炸彈!它通過創新的 ARC 後訓練方法,實現了令人驚歎的速度和多樣性,同時保持了高質量的音頻輸出。 它的輕量化設計和在移動設備上的出色表現,預示着文字轉語音技術將在更多創意應用中大放異彩。
未來,我們可以期待這個模型在更多場景下大顯身手,讓我們的世界變得更加“聲”動有趣!