在 AI 語音生成領域,競爭正變得愈發激烈。近日,來自韓國的兩名本科生合夥創建了一款名爲 Dia 的 AI 語音模型,聲稱其功能可與谷歌的 NotebookLM 相媲美。儘管這兩位創始人在 AI 領域的經驗尚淺,但他們在短短三個月內,成功開發出一款開放獲取的語音生成工具。
Dia 的訓練依賴於谷歌的 TPU Research Cloud 項目,該項目爲研究人員提供免費的 TPU AI 芯片使用權限。Dia 模型擁有1.6億個參數,能夠根據給定的腳本生成對話。用戶還可以自由定製發言人的語調,並插入諸如咳嗽、笑聲等非語言提示。參數越多,通常意味着模型的性能越好。
Dia 目前可通過 AI 開發平臺 Hugging Face 和 GitHub 獲取,適用於大多數配備至少10GB VRAM 的現代個人電腦。在未提供具體風格描述時,Dia 會生成隨機的聲音,但用戶也可以使用該模型進行聲音克隆。
在 TechCrunch 的初步測試中,Dia 表現良好,能夠毫無障礙地生成關於各種主題的雙向對話,語音質量與市面上其他工具相當。值得注意的是,Dia 的聲音克隆功能也是記者嘗試過的最簡單易用的之一。
然而,Dia 在保障措施方面的不足引發了一些擔憂。用戶可以輕易利用該工具製作虛假信息或欺詐錄音。儘管 Nari 在 Dia 的項目頁面上呼籲用戶不要利用模型進行欺詐或其他非法活動,但他們也表示不對模型的濫用行爲負責。此外,Nari 尚未披露用來訓練 Dia 的數據來源,這意味着其可能使用了受版權保護的內容,相關法律問題依然複雜。
Nari Labs 的創始人 Toby Kim 表示,他們計劃在 Dia 的基礎上,構建一個具有 “社交特性” 的合成語音平臺,並希望在未來支持更多語言。Nari 還計劃發佈 Dia 的技術報告,以進一步擴大其影響力。
項目:https://github.com/nari-labs/dia
劃重點:
🌟 由兩名本科生創建的 AI 語音模型 Dia,可以生成對話並支持聲音克隆。
🚀 Dia 使用谷歌的 TPU Research Cloud 進行訓練,具備1.6億個參數,適用於現代 PC。
⚠️ 模型存在安全隱患,Nari 不對濫用行爲負責,並未披露訓練數據的來源。