OpenAI 旗下 GPT-4o 的高級語音模式(Advanced Voice Mode)近期迎來重大更新,不僅能進行更自然的語音交互,還新增了令人矚目的“唱歌”功能。儘管當前唱歌表現尚顯稚嫩,但這一突破無疑爲 AI 的多模態交互能力開闢了新可能。AIbase 綜合整理最新信息,爲您解析 GPT-4o 語音模式的最新進展及其潛力。

image.png

唱歌功能上線:AI也能“開嗓”

最新消息顯示,GPT-4o 的高級語音模式現已支持唱歌功能,用戶可以通過語音指令要求 AI 演唱歌曲,甚至包括一些受版權保護的曲目。這一功能讓 GPT-4o 能夠根據用戶需求生成旋律、歌詞或模仿特定風格的演唱,爲交互體驗增添趣味性。儘管目前“唱功”仍需優化,AIbase 觀察到,這一功能的加入標誌着 GPT-4o 在音頻生成領域的全新嘗試。

多模態交互再升級:更自然、更情感

GPT-4o 的高級語音模式以其端到端語音處理能力著稱,相較於傳統語音模式(依賴語音轉文本再生成語音),新模式直接處理音頻輸入,顯著降低了響應延遲,平均僅爲320毫秒。此外,GPT-4o 能夠捕捉用戶的語速、語氣等非語言線索,並以更富情感的語音迴應,甚至支持用戶隨時打斷對話,帶來接近人類對話的自然體驗。

功能亮點:笑聲、哭聲全能駕馭

除了唱歌,GPT-4o 高級語音模式還能根據指令生成笑聲、哭聲等情感表達,進一步豐富了交互場景。例如,用戶可以要求 AI 以戲劇化、幽默或特定角色的語氣進行迴應,如模仿動畫角色或名人語音。這種靈活性使其在娛樂、教育和創意內容生成領域展現出巨大潛力。

當前侷限:唱歌仍需打磨

儘管新增了唱歌功能,但 GPT-4o 的演唱表現尚未達到專業水準。測試中,AI 在處理複雜旋律或高音時可能顯得不夠流暢,且部分用戶反饋其語音質量相較於其他 AI 語音模型(如 Pi AI 或 Siri)略顯遜色,採樣率較低導致音質略有壓縮感。OpenAI 表示,唱歌功能的加入旨在探索音頻生成邊界,未來將通過持續優化提升表現。

安全與版權考量:有限制的創新

爲尊重版權,OpenAI 對 GPT-4o 的語音輸出設置了嚴格的過濾機制,限制其生成受版權保護的音樂內容。然而,近期信息顯示,部分用戶已成功讓 AI 演唱受版權保護的歌曲,引發了關於版權界限的討論。此外,GPT-4o 在某些音頻任務(如自動歌唱評分或語音合成)上存在較高拒絕率,可能是出於避免生成未經授權內容或缺乏客觀標準的考量。

語音 AI 的新篇章

GPT-4o 高級語音模式的更新,尤其是唱歌功能的加入,標誌着 OpenAI 在多模態 AI 領域的持續突破。儘管當前唱歌表現有待提升,但其低延遲、自然交互和情感表達能力已顯著領先於傳統語音助手,如 Siri 和 Alexa。AIbase 認爲,隨着 OpenAI 進一步優化音質和版權處理機制,GPT-4o 有望在教育、娛樂和客戶服務等領域掀起新的應用熱潮。

結語

GPT-4o 高級語音模式的唱歌功能爲 AI 交互注入了更多趣味與可能性,儘管仍需技術打磨,其創新意義不容忽視。從低延遲對話到情感化表達,GPT-4o 正在重新定義人機交互的邊界。