在人工智能的快速發展中,語音合成技術正日益受到關注。近日,名爲 Kokoro 的最新語音合成模型在 Hugging Face 平臺上正式發佈,該模型具有8200萬參數,標誌着語音合成領域的一個重要里程碑。
Kokoro v0.19在發佈之前的幾周裏,在 TTS(文本轉語音)領域的排行榜上位列第一,其表現甚至超過了其他參數更多的模型。這一模型在單聲道設置下,僅用不到100小時的音頻數據,便實現了與467M 參數的 XTTS v2和1.2B 參數的 MetaVoice 等模型相媲美的效果。這一成就表明,傳統語音合成模型的性能與參數、計算量和數據量之間的關係,可能比以往預期的更加顯著。
在使用上,用戶只需在 Google Colab 中運行幾行代碼,即可加載模型和語音包,生成高質量的音頻。Kokoro 目前支持美國英語和英國英語,並提供了多個語音包供用戶選擇。
Kokoro 的訓練過程使用了 Vast.ai 的 A10080GB vRAM 實例,租用成本相對較低,確保了高效的訓練過程。整個模型的訓練僅使用了不到20個訓練週期和不到100小時的音頻數據。Kokoro 模型在訓練中使用了公有領域的音頻數據以及其他開放許可證的音頻,確保了數據的合規性。
儘管 Kokoro 在語音合成方面表現出色,但由於其訓練數據和架構的限制,目前尚無法支持聲音克隆,並且主要的訓練數據集中在長篇朗讀和敘述,而非對話。
模型:https://huggingface.co/hexgrad/Kokoro-82M
體驗:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
劃重點:
🌟 Kokoro-82M 是一款新發布的語音合成模型,具有8200萬參數,支持多種語音包。
🎤 該模型在 TTS 領域表現卓越,曾在排行榜上排名第一,僅用不到100小時的音頻數據進行訓練。
📊 Kokoro 模型的訓練採用了開放許可證的數據,確保合規性,但目前仍存在一些功能限制。