OpenAI 在去年推出的 GPT-4o 基礎上,再次對其高級語音模式進行了重大的更新,使得語音交流變得更加自然和貼近人類的對話方式。這一先進的功能依託於原生的多模態模型,能夠快速響應音頻輸入,最快在232毫秒內作出反應,平均響應時間爲320毫秒,幾乎與人類的對話速度不相上下。
在今年年初,OpenAI 已經對這一語音模式進行了小幅更新,改善了打斷頻率和口音處理。而此次的重大升級,更是使語音回覆的語調變得更加細膩、節奏更加自然,尤其是在停頓和強調的處理上,顯得更加生動。此外,更新後的系統能夠更加精準地表達各種情緒,包括同情和諷刺,使得機器與人類的交流更具人情味。
更令人興奮的是,本次更新還增加了翻譯功能。ChatGPT 用戶只需簡單指令,便可讓它在對話中進行實時翻譯,直到收到停止指令。這一功能的推出,無疑會減少對專門語音翻譯應用的需求,進一步提升用戶體驗。目前,更新後的高級語音模式僅向付費用戶開放。
儘管這一系列的改進顯著提升了語音交互的質量,但 OpenAI 也明確指出,當前更新仍存在一些已知的侷限性。例如,在某些情況下,音頻質量可能會略有下降,音調和語調可能出現意外變化,尤其是在某些語音選項中較爲明顯。此外,偶爾也會出現與真實對話不符的情況,例如出現廣告、胡言亂語或背景音樂的意外聲音。OpenAI 表示,他們將繼續努力提升音頻的一致性,逐步解決這些問題。
這次升級不僅讓 AI 的語音交互體驗更加自然,也爲人類與人工智能之間的溝通打下了更爲堅實的基礎。