GPT-4o 語音模式全新升級：唱歌功能上線，AI交互進入新境界

OpenAI 旗下 GPT-4o 的高級語音模式（Advanced Voice Mode）近期迎來重大更新，不僅能進行更自然的語音交互，還新增了令人矚目的“唱歌”功能。儘管當前唱歌表現尚顯稚嫩，但這一突破無疑爲 AI 的多模態交互能力開闢了新可能。AIbase 綜合整理最新信息，爲您解析 GPT-4o 語音模式的最新進展及其潛力。

唱歌功能上線:AI也能“開嗓”

最新消息顯示，GPT-4o 的高級語音模式現已支持唱歌功能，用戶可以通過語音指令要求 AI 演唱歌曲，甚至包括一些受版權保護的曲目。這一功能讓 GPT-4o 能夠根據用戶需求生成旋律、歌詞或模仿特定風格的演唱，爲交互體驗增添趣味性。儘管目前“唱功”仍需優化，AIbase 觀察到，這一功能的加入標誌着 GPT-4o 在音頻生成領域的全新嘗試。

多模態交互再升級:更自然、更情感

GPT-4o 的高級語音模式以其端到端語音處理能力著稱，相較於傳統語音模式（依賴語音轉文本再生成語音），新模式直接處理音頻輸入，顯著降低了響應延遲，平均僅爲320毫秒。此外，GPT-4o 能夠捕捉用戶的語速、語氣等非語言線索，並以更富情感的語音迴應，甚至支持用戶隨時打斷對話，帶來接近人類對話的自然體驗。

功能亮點:笑聲、哭聲全能駕馭

除了唱歌，GPT-4o 高級語音模式還能根據指令生成笑聲、哭聲等情感表達，進一步豐富了交互場景。例如，用戶可以要求 AI 以戲劇化、幽默或特定角色的語氣進行迴應，如模仿動畫角色或名人語音。這種靈活性使其在娛樂、教育和創意內容生成領域展現出巨大潛力。

當前侷限:唱歌仍需打磨

儘管新增了唱歌功能，但 GPT-4o 的演唱表現尚未達到專業水準。測試中，AI 在處理複雜旋律或高音時可能顯得不夠流暢，且部分用戶反饋其語音質量相較於其他 AI 語音模型（如 Pi AI 或 Siri）略顯遜色，採樣率較低導致音質略有壓縮感。OpenAI 表示，唱歌功能的加入旨在探索音頻生成邊界，未來將通過持續優化提升表現。

安全與版權考量:有限制的創新

爲尊重版權，OpenAI 對 GPT-4o 的語音輸出設置了嚴格的過濾機制，限制其生成受版權保護的音樂內容。然而，近期信息顯示，部分用戶已成功讓 AI 演唱受版權保護的歌曲，引發了關於版權界限的討論。此外，GPT-4o 在某些音頻任務（如自動歌唱評分或語音合成）上存在較高拒絕率，可能是出於避免生成未經授權內容或缺乏客觀標準的考量。

語音 AI 的新篇章

GPT-4o 高級語音模式的更新，尤其是唱歌功能的加入，標誌着 OpenAI 在多模態 AI 領域的持續突破。儘管當前唱歌表現有待提升，但其低延遲、自然交互和情感表達能力已顯著領先於傳統語音助手，如 Siri 和 Alexa。AIbase 認爲，隨着 OpenAI 進一步優化音質和版權處理機制，GPT-4o 有望在教育、娛樂和客戶服務等領域掀起新的應用熱潮。

結語

GPT-4o 高級語音模式的唱歌功能爲 AI 交互注入了更多趣味與可能性，儘管仍需技術打磨，其創新意義不容忽視。從低延遲對話到情感化表達，GPT-4o 正在重新定義人機交互的邊界。

GPT-4o 語音模式全新升級：唱歌功能上線，AI交互進入新境界

相關推薦

阿里 Qwen3.7-Max 編程能力全球登頂第二！Code Arena 1541 分，僅次 Claude，35 小時自主任務刷新生產力上限

就業市場遇冷AI不背鍋？LinkedIn數據顯示利率上升纔是主因

OpenAI 核心高管 Joanne Jang 官宣離職：曾被譽爲“GPT-4o 之母”

“GPT-4o 之母”宣佈離職，OpenAI 管理層再陷震盪

預言 2026：OpenClaw 創始人稱今年將成爲通用 AI 代理元年