在快速發展的播客領域,Podcastle 平臺近日宣佈推出其全新的 AI 文本轉語音模型 Asyncflow v1.0。這個新模型不僅爲用戶提供了超過450種不同的 AI 語音,還向開發者開放了 API 接口,以便於他們將這一文本轉語音功能直接集成到自己的應用程序中。

QQ_1741058363798.png

Podcastle 的創始人 Arto Yeritsyan 表示,公司一直希望能開發一個文本轉語音模型,但由於過去高昂的訓練成本和數據需求,這一願望一直未能實現。然而,隨着近年來大型語言模型技術的進步,Podcastle 終於在去年取得了突破,能夠在不需要大量數據的情況下,構建出高質量的語音模型。Yeritsyan 補充道,Podcastle 的研發得到了去年1350萬美元的 A 輪融資的支持,這爲其技術創新提供了重要保障。

在價格方面,Podcastle 的文本轉語音服務定價爲每500分鐘約40美元,相比之下,競爭對手 ElevenLabs 則收取99美元。除了文本轉語音模型外,Podcastle 的語音克隆功能也得到了升級,訓練過程由之前的需朗讀70句不同句子,縮短至現在僅需幾秒的錄音。新過程利用了 Podcastle 去年推出的 Magic Dust AI 技術,顯著提高了音頻錄製質量。

在實際測試中,儘管新生成的語音聽起來稍顯機器人,但仍能較好地模仿說話者的語調。Podcastle 表示,隨着時間推移,該功能將不斷改進,用戶也可以通過不同的錄音樣本訓練出不同的聲音效果。

Yeritsyan 指出,除了成本優勢外,將音頻、視頻、播客和 AI 驅動的敘述工具整合到一個重新設計的網站中,也將使 Podcastle 在競爭中脫穎而出。他提到,雖然大多數用戶仍主要使用 Podcastle 進行音頻內容創作,但視頻製作的需求也在逐漸上升。

入口:https://podcastle.ai/ai-voices

劃重點:  

🌟 Podcastle 推出 Asyncflow v1.0模型,提供超過450種 AI 語音。  

💰 該平臺每500分鐘文本轉語音的收費爲40美元,低於競爭對手的定價。  

🎤 語音克隆功能經過升級,訓練時間大幅縮短,用戶體驗不斷優化。