正文

OpenAI在開發者Playground中添加了文本轉語音 API

發布於AI新閒資訊

時間 :Jul 11, 2024

閱讀 :1分鐘

OpenAI將文本轉語音 API 添加到了開發者Playground 中，這個更新讓開發者的工作變得更加輕鬆，只需簡單地輸入文本消息，就能在六種預設的聲音中選擇，生成音頻。

更智能的是，這個API能夠自動識別文本的語言，並匹配相應的語音，省去了選擇語言和國家版本的麻煩。

這項服務不僅簡化了開發流程，而且提供了高質量的語音合成技術。OpenAI的文本轉語音功能能夠將書面文本轉換成聽起來非常自然的口述音頻，爲創造沉浸式和交互式用戶體驗提供了無限可能。

OpenAI 文本轉語音聲音包含兩種模型變體，以滿足不同場景下的需求:

Neural:這個模型變體專爲那些需要最低延遲的實時用例進行了優化，雖然在質量上可能略遜於NeuralHD，但對於需要快速響應的應用場景來說，它是理想的選擇。

NeuralHD:正如其名，這個模型變體專注於提供最高質量的語音輸出。如果你的應用追求最佳音質，NeuralHD無疑是最佳選擇。

總的來說，OpenAI的文本轉語音API爲開發者提供了一個強大而靈活的工具，無論是在實時通信還是高質量內容製作方面，都能夠滿足開發者的需求。這一進步再次證明了AI技術在改善和提升人們日常生活與工作體驗方面的巨大潛力。

在線體驗地址：https://platform.openai.com/playground/tts

智譜 AI宣佈GLM-4-9B、CodeGeeX4-ALL-9B 支持 Ollama 部署

智譜 AI 已發佈其開源模型 GLM-4-9B 和 CodeGeeX4-ALL-9B 爲 Ollama 支持。GLM-4-9B 屬於多領域通用模型，表現出色並得到開放共享。基於上述模型的 CodeGeeX4-ALL-9B 則專注於多語言代碼生成，顯著提升生成能力。Ollama 是一款方便在本地環境部署大型語言模型的工具，支持 Windows、macOS、Linux 和 Docker，用戶可快速運行所選模型，界面友好。時下版本的 Ollama 已支持對語言模型進行部署，但仍不支持多模態模型。用戶可以通過以下鏈接訪問模型：GLM-4-9B - <https://ollama.com/library/glm4>；CodeGeeX4-ALL-9B - <https://ollama.com/library/codegeex4>。

Jul 12, 2024

487.2k

字節大模型Depth Anything V2 被蘋果官方收入Core ML模型庫

字節跳動團隊自主研發的深度估計模型Depth Anything V2，獲得蘋果公司的高度認可並收入其Core ML模型庫。該模型爲單目深度估計工具，能從單一圖片中計算場景深度，成果廣泛應用於視頻特效、自動駕駛、3D建模與增強現實等多個領域。通過從初代25M參數到二代1.3B參數的跨越式升級，深度估計精度和應用範圍進一步擴大，GitHub上累計獲得超過8.7k的星標認證，表明其技術實力和市場潛力。作爲一位實習生主導的核心項目，Depth Anything V2在低估資源情況下展示了高水平的技術能力與創新成果，體現了優秀培養文化和紮實研發路徑在字節跳動內部的實踐。通過整合進蘋果的機器學習框架Core ML，模型能夠實現高效性能與穩定應用，即便是離線狀態下，也能夠處理複雜的AI任務。Depth Anything V2爲字節跳動在視覺生成和大模型領域的發展再次樹立了里程碑，展示了團隊在解決深層視覺問題時的前瞻性和優勢。未來，模型的應用範圍將持續擴大，不僅在已有領域深化發展的可能，還可能構建橋樑以支持視頻平臺或剪輯軟件的功能擴展，支持特效製作與視頻編輯等功能。深度估計作爲計算機視覺的核心能力，其技術革新的成果——Depth Anything V2，預示了字節跳動在技術研發與人才培養方面持續投入與承諾的成果顯效。

Jul 11, 2024

293.3k

AI對口型項目EchoMimic：音頻+角色照片生成生動配嘴型視頻

在AI視頻對口型領域，螞蟻集團與相關團隊公佈了EchoMimic技術，一款新穎的音頻驅動創新性方法，能根據音頻內容及角色照片生成生動的對口型視頻。相較於傳統音頻驅動或面部關鍵點驅動方法，EchoMimic通過融合音頻信號與面部特徵，採用獨特訓練策略，成功解決了處理音頻信號較弱或面部關鍵控制過度的問題，生成更加逼真且動態的人像視頻。此技術核心是精確捕捉音頻與面部特徵間的關聯，利用先進數據融合技術確保音頻與面部特徵有效整合，提升了動畫的穩定性和自然度。在獨立使用音頻、面部特徵及兩者結合時，EchoMimic均表現出色，在定量與定性評估中超越對比算法。通過高級別對比效果示例展示了其跨語種對口型及唱歌的能力。隨着技術持續發展和應用深化，EchoMimic在人像動畫領域展現了巨大潛力。

Jul 11, 2024

1,187.1k

UltraEdit：更精準理解上下文指令實現圖片局部重繪和整體編輯

近日，一項技術革新吸引了廣泛關注。全新圖片編輯工具UltraEdit誕生，它融合了語言與視覺反饋，重新定義了圖像處理的界限。UltraEdit相比其他產品，擁有更爲豐富且無偏差的訓練數據，這些數據包括照片和藝術品，爲用戶提供更爲廣泛、多樣的編輯選項。其獨特優勢體現在兩大創新功能：自由格式編輯與基於區域的編輯。前者讓用戶可無限制地進行局部重繪，後者則允許精準編輯特定區域。這些特性使得UltraEdit成爲圖像處理領域的遊戲規則改變者，爲用戶提供了前所未有的編輯自由與精準度。與基於文本生成的圖像模型不同，UltraEdit從真實世界中的圖片中學習，這爲用戶提供了一個更加真實且高度多樣化的編輯環境。其靈活的編輯方式與豐富、無偏差的數據集相得益彰，確保了編輯任務的高效完成與優秀質量。以下是使用UltraEdit訓練數據集生成的編輯示例，進一步展示了其強大的自由形式和基於區域的編輯能力。🌟UltraEdit結合語言與視覺反饋，創造全新圖像處理方式🌟提供自由形式與基於區域的編輯模式🌟在豐富編輯任務與減少偏差方面展現優勢，爲用戶帶來高質量編輯體驗。

Jul 11, 2024

244.5k

三巨頭聯手！Vimeo、YouTube和TikTok合作推出革新性AI內容標籤系統

Vimeo推出新政策要求創作者標註AI生成視頻，加入同YouTube、TikTok競爭。旨在保護觀衆不受誤導，區分AI合成視頻與實際事件。政策針對高度逼真、易混淆視頻明確致AI來源標註需，而不影響明顯動畫或輕微製作輔助內容。新增人工檢測與自動化系統，VimeoCEOPhilipMoyer揭示長期目標爲開發穩定AI內容標籤系統，提升透明度。舉措強化真實內容承諾，引導創作者與觀衆在AI前沿導航，旨在防止內容濫用。

Jul 11, 2024

253.0k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

OpenAI在開發者Playground中添加了文本轉語音 API

相關推薦

智譜 AI宣佈GLM-4-9B、CodeGeeX4-ALL-9B 支持 Ollama 部署

字節大模型Depth Anything V2 被蘋果官方收入Core ML模型庫

AI對口型項目EchoMimic：音頻+角色照片生成生動配嘴型視頻

UltraEdit：更精準理解上下文指令 實現圖片局部重繪和整體編輯

三巨頭聯手！Vimeo、YouTube和TikTok合作推出革新性AI內容標籤系統

UltraEdit：更精準理解上下文指令實現圖片局部重繪和整體編輯