一家名爲 Nari Labs 的兩人創業公司發佈了 Dia,這是一個擁有16億參數的文本轉語音 (TTS) 模型,旨在直接從文本提示生成自然對話。其聯合創始人 Toby Kim 聲稱,Dia 的性能超越了 ElevenLabs 等競爭對手的專有產品以及谷歌的 NotebookLM AI 播客生成功能,並可能對 OpenAI 近期發佈的 gpt-4o-mini-tts 構成威脅。

Kim 在社交媒體 X 上表示,Dia 在質量上可與 NotebookLM 的播客功能媲美,並優於 ElevenLabs Studio 和 Sesame 的開放模型。他透露,該模型是在“零資金”的情況下構建的,並強調他們並非一開始就是人工智能專家,而是因爲對 NotebookLM 的播客功能的熱愛而啓動了這個項目。他們嘗試了市面上所有的 TTS API,但都不夠自然。Kim 對谷歌允許他們使用其張量處理單元芯片 (TPU) 訓練 Dia 表示感謝。

目前,Dia 的代碼和權重已在 Hugging Face 和 Github 上開源,供用戶下載和本地部署。個人用戶也可以在 Hugging Face Space 上在線體驗。

語音控制

高級控制和更多可定製功能

Dia 支持包括情緒語調、說話人標記和(笑)、(咳嗽)、(清嗓子)等非語言音頻提示等細緻功能,這些都僅通過純文本實現。Nari Labs 的示例表明,Dia 能夠正確解讀這些標籤,而其他模型往往無法可靠支持。該模型目前僅支持英語,聲音在每次運行時都會有所不同,除非用戶修改生成種子或提供音頻提示進行語音克隆。

Nari Labs 在其網站上提供了 Dia 與 ElevenLabs Studio 和 Sesame CSM-1B 的對比示例,展示了 Dia 在處理自然節奏、非語言表達、多情感對話、複雜節奏內容以及通過音頻提示延續語音風格等方面的優越性。Nari Labs 指出,Sesame 的演示可能使用了其內部更大參數的版本。

模型訪問和技術規格

開發者可以從 Nari Labs 的 GitHub 存儲庫和 Hugging Face 模型頁面獲取 Dia。該模型基於 PyTorch2.0+ 和 CUDA12.6運行,需要約10GB 顯存。Nari Labs 計劃未來提供 CPU 支持和量化版本。

Dia 在完全開源的 Apache2.0許可證下分發,允許商業用途。Nari Labs 強調禁止將其用於不道德的用途,並鼓勵負責任的實驗。該項目的開發得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 資助計劃以及其他相關研究的支持。Nari Labs 僅有兩名工程師,但積極邀請社區參與貢獻。

Github: https://github.com/nari-labs/dia

huggingface:https://huggingface.co/spaces/nari-labs/Dia-1.6B