最近,OpenAI 對其 ChatGPT 的語音功能進行了全面升級,特別是針對訂閱用戶,旨在提升 AI 的語音表達的自然性和情感豐富度。根據 OpenAI 的說法,更新後的 “高級語音模式” 現在可以實現更流暢、情感更細膩的語音輸出,包括對語調、停頓以及表達同理心或諷刺等情感的改進。

音頻 聲波 智能語音

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

值得注意的是,此次更新還新增了實時翻譯功能。用戶現在可以選擇特定的語言對,要求 ChatGPT 進行翻譯。AI 將會不斷地對話雙方的內容進行翻譯,直到用戶指示停止。這一功能非常適用於餐館點餐或多語言的工作場景。

付費用戶只需在聊天界面的語言圖標上點擊,即可在所有平臺上體驗這些語音改進。然而,OpenAI 也指出仍存在一些已知問題。用戶可能會遇到偶爾的音頻質量下降,比如音調或音量的突變,這在某些語音中可能更爲明顯。此外,所謂的 “幻覺” 現象仍然存在,ChatGPT 有時會無緣無故地產生奇怪的聲音,例如廣告片段、隨機噪音,甚至是背景音樂。最近有用戶反映,ChatGPT 在對話中突然播放了一段廣告,儘管 OpenAI 並未投放廣告。

image.png

OpenAI 在2024年5月首次推出了 “高級語音模式”,並於2024年10月擴大了在歐盟的可用性。該功能的目標是實現與 AI 的自然實時互動,包括在對話中打斷和表達情感。如果用戶打開攝像頭,ChatGPT 還可以對周圍的物體或環境進行實時評論。類似的功能也出現在谷歌的 Gemini 應用中。

劃重點:  

🌟 OpenAI 對 ChatGPT 進行了語音功能升級,使其語音更加自然流暢,情感表達更豐富。  

🌍 新增實時翻譯功能,用戶可選擇語言對進行連續翻譯,適用於多語言場景。  

⚠️ 仍存在一些問題,包括音頻質量波動和無故生成的奇怪聲音。