兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

在 AI 語音生成領域，競爭正變得愈發激烈。近日，來自韓國的兩名本科生合夥創建了一款名爲 Dia 的 AI 語音模型，聲稱其功能可與谷歌的 NotebookLM 相媲美。儘管這兩位創始人在 AI 領域的經驗尚淺，但他們在短短三個月內，成功開發出一款開放獲取的語音生成工具。

Dia 的訓練依賴於谷歌的 TPU Research Cloud 項目，該項目爲研究人員提供免費的 TPU AI 芯片使用權限。Dia 模型擁有1.6億個參數，能夠根據給定的腳本生成對話。用戶還可以自由定製發言人的語調，並插入諸如咳嗽、笑聲等非語言提示。參數越多，通常意味着模型的性能越好。

Dia 目前可通過 AI 開發平臺 Hugging Face 和 GitHub 獲取，適用於大多數配備至少10GB VRAM 的現代個人電腦。在未提供具體風格描述時，Dia 會生成隨機的聲音，但用戶也可以使用該模型進行聲音克隆。

在 TechCrunch 的初步測試中，Dia 表現良好，能夠毫無障礙地生成關於各種主題的雙向對話，語音質量與市面上其他工具相當。值得注意的是，Dia 的聲音克隆功能也是記者嘗試過的最簡單易用的之一。

然而，Dia 在保障措施方面的不足引發了一些擔憂。用戶可以輕易利用該工具製作虛假信息或欺詐錄音。儘管 Nari 在 Dia 的項目頁面上呼籲用戶不要利用模型進行欺詐或其他非法活動，但他們也表示不對模型的濫用行爲負責。此外，Nari 尚未披露用來訓練 Dia 的數據來源，這意味着其可能使用了受版權保護的內容，相關法律問題依然複雜。

Nari Labs 的創始人 Toby Kim 表示，他們計劃在 Dia 的基礎上，構建一個具有 “社交特性” 的合成語音平臺，並希望在未來支持更多語言。Nari 還計劃發佈 Dia 的技術報告，以進一步擴大其影響力。

項目：https://github.com/nari-labs/dia

劃重點:
🌟 由兩名本科生創建的 AI 語音模型 Dia，可以生成對話並支持聲音克隆。
🚀 Dia 使用谷歌的 TPU Research Cloud 進行訓練，具備1.6億個參數，適用於現代 PC。
⚠️ 模型存在安全隱患，Nari 不對濫用行爲負責，並未披露訓練數據的來源。

告別繁瑣 AI 切換:Dia 瀏覽器內置智能，一站式滿足你的需求

隨着人工智能產品和工具日益深入人們與互聯網的互動方式，並持續搶佔市場份額和資金，傳統的網絡工具正面臨着前所未有的生存危機。The Browser Company 似乎敏銳地捕捉到了這一趨勢，並採取了大膽的行動。去年，該公司做出了一個重大決定:停止開發其備受歡迎的網絡瀏覽器 Arc。儘管 Arc 在愛好者中擁有一定的用戶基礎，但其陡峭的學習曲線使其難以實現大規模普及。承認這一現實後，The Browser Company 將重心轉向開發一款以人工智能爲核心的瀏覽器——Dia。目前，Dia 已開放測試，用戶需

顛覆性開源 TTS 模型 Dia 發佈:情緒、非語言提示全支持，媲美真人對話

一家名爲 Nari Labs 的兩人創業公司發佈了 Dia，這是一個擁有16億參數的文本轉語音（TTS）模型，旨在直接從文本提示生成自然對話。其聯合創始人 Toby Kim 聲稱，Dia 的性能超越了 ElevenLabs 等競爭對手的專有產品以及谷歌的 NotebookLM AI 播客生成功能，並可能對 OpenAI 近期發佈的 gpt-4o-mini-tts 構成威脅。Kim 在社交媒體 X 上表示，Dia 在質量上可與 NotebookLM 的播客功能媲美，並優於 ElevenLabs Studio 和 Sesame 的開放模型。他透露，該模型是在“零資金”的情況下構建的，並強調他們並非一開始就是人工

亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

亞馬遜近日發佈了其最新的 AI 語音模型 ——Nova Sonic，這一新技術標誌着該公司在人工智能語音領域的重要進展。Nova Sonic 能夠快速處理語音輸入並生成自然流暢的語音輸出，其在速度、識別準確性以及對話質量等方面已達到了與 OpenAI 和谷歌等行業領軍企業的頂尖水平。與其他 AI 語音模型相比，Nova Sonic 在性價比方面表現突出，價格竟然比 OpenAI 的 GPT-4o 便宜約 80%。這種經濟實惠的解決方案無疑爲企業開發 AI 應用提供了更具吸引力的選擇。Nova Sonic 通過亞馬遜 Bedrock 開發者平臺進行服務，

兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

相關推薦

Arc的幽靈重生！6.1億美元收購案後，Dia瀏覽器確認繼承“前輩”衣鉢，AI架構融合經典設計

Arc 繼任者 Dia 正式發佈 macOS:內置“AI 技能”系統，每月擁抱無限制聊天

告別繁瑣 AI 切換:Dia 瀏覽器內置智能，一站式滿足你的需求

顛覆性開源 TTS 模型 Dia 發佈:情緒、非語言提示全支持，媲美真人對話

亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

​兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM

相關推薦

Arc的幽靈重生！6.1億美元收購案後，Dia瀏覽器確認繼承“前輩”衣鉢，AI架構融合經典設計

Arc 繼任者 Dia 正式發佈 macOS:內置“AI 技能”系統，每月擁抱無限制聊天

告別繁瑣 AI 切換:Dia 瀏覽器內置智能，一站式滿足你的需求

顛覆性開源 TTS 模型 Dia 發佈:情緒、非語言提示全支持，媲美真人對話

亞馬遜推出革命性 AI 語音模型 Nova Sonic，價格更具競爭力！

兩名本科生打造 AI 語音模型，挑戰谷歌 NotebookLM