播客平臺 Podcastle 推出AI文本轉語音模型：提供 450 種語音

在快速發展的播客領域，Podcastle 平臺近日宣佈推出其全新的 AI 文本轉語音模型 Asyncflow v1.0。這個新模型不僅爲用戶提供了超過450種不同的 AI 語音，還向開發者開放了 API 接口，以便於他們將這一文本轉語音功能直接集成到自己的應用程序中。

Podcastle 的創始人 Arto Yeritsyan 表示，公司一直希望能開發一個文本轉語音模型，但由於過去高昂的訓練成本和數據需求，這一願望一直未能實現。然而，隨着近年來大型語言模型技術的進步，Podcastle 終於在去年取得了突破，能夠在不需要大量數據的情況下，構建出高質量的語音模型。Yeritsyan 補充道，Podcastle 的研發得到了去年1350萬美元的 A 輪融資的支持，這爲其技術創新提供了重要保障。

在價格方面，Podcastle 的文本轉語音服務定價爲每500分鐘約40美元，相比之下，競爭對手 ElevenLabs 則收取99美元。除了文本轉語音模型外，Podcastle 的語音克隆功能也得到了升級，訓練過程由之前的需朗讀70句不同句子，縮短至現在僅需幾秒的錄音。新過程利用了 Podcastle 去年推出的 Magic Dust AI 技術，顯著提高了音頻錄製質量。

在實際測試中，儘管新生成的語音聽起來稍顯機器人，但仍能較好地模仿說話者的語調。Podcastle 表示，隨着時間推移，該功能將不斷改進，用戶也可以通過不同的錄音樣本訓練出不同的聲音效果。

Yeritsyan 指出，除了成本優勢外，將音頻、視頻、播客和 AI 驅動的敘述工具整合到一個重新設計的網站中，也將使 Podcastle 在競爭中脫穎而出。他提到，雖然大多數用戶仍主要使用 Podcastle 進行音頻內容創作，但視頻製作的需求也在逐漸上升。

入口:https://podcastle.ai/ai-voices

劃重點:
🌟 Podcastle 推出 Asyncflow v1.0模型，提供超過450種 AI 語音。
💰 該平臺每500分鐘文本轉語音的收費爲40美元，低於競爭對手的定價。
🎤 語音克隆功能經過升級，訓練時間大幅縮短，用戶體驗不斷優化。

ElevenLabs發佈全球首款犬類AI文本轉語音模型“Text To Bark”

近日，人工智能音頻技術領域的先鋒企業ElevenLabs宣佈推出全球首款專爲犬類設計的AI文本轉語音模型“Text To Bark”，引發了科技界和寵物愛好者的廣泛關注。這一創新技術號稱能夠將人類輸入的文字轉化爲高度逼真的狗吠聲，據稱其真實度之高，甚至有95%的狗無法分辨這些聲音是由AI生成而非真實犬類發出的。此舉被視爲推動人類與寵物之間“溝通”的一次大膽嘗試，儘管狗狗可能仍無法理解人類的具體意圖，但這一技術至少讓人類能夠以“狗語”表達自己。據介紹，“Text To Bark”模型的

智譜開源文生圖模型CogView4，支持中英雙語提示詞輸入

智譜AI最新開源文生圖模型CogView4正式亮相，CogView4不僅在參數數量上達到了6億，還全面支持中文輸入和中文文本到圖像的生成，被稱其爲“首個能在畫面中生成漢字的開源模型”。CogView4以支持中英雙語提示詞輸入爲核心亮點，尤其擅長理解和遵循複雜的中文指令，成爲中文內容創作者的福音。作爲首個能在圖像中生成漢字的開源文生圖模型，它填補了開源領域的一大空白。此外，該模型支持生成任意寬高圖片，並能處理任意長度的提示詞輸入，展現出極高的靈活性。CogView4的雙語能力得

中文開源圖片模型終於來了！智譜霸氣發佈 CogView4：中文 prompt 隨便喂，漢字都能給你畫出來！

還在苦苦尋覓能聽懂中文的開源圖片模型?現在，你可以徹底告別英文 prompt 的“束縛”了!國內 AI 巨頭智譜 AI 霸氣開源了全新文生圖模型 CogView4，直接把中文圖片生成技術推向了新高度! 這下，設計師們、內容創作者們，甚至是對 AI 繪畫感興趣的 “小白” 們，都能揚眉吐氣，用咱自己的母語，玩轉 AI 圖像生成了!CogView4最大的亮點，就是它對中文的“超強理解力”!你再也不用對着翻譯軟件吭哧吭哧地把中文 prompt 翻譯成英文，直接用最自然的中文 “指令”，就能讓 CogView4秒懂你的 “畫意

智譜發佈首個能生成漢字的開源文生圖模型CogView4

北京智譜華章科技有限公司宣佈推出首個支持生成漢字的開源文生圖模型——CogView4。該模型在DPG-Bench基準測試中綜合評分排名第一，成爲開源文生圖模型中的SOTA（State of the Art），並遵循Apache2.0協議，是首個支持該協議的圖像生成模型。

超強視頻生成模型 Wan2.1 GP：低配GPU也能搞定大片！