豆包App推出新語音模式，搶先GPT-4o實現唱歌和角色扮演

2025年1月20日，豆包 App 正式發佈了其最新的 “端到端” 語音大模型，並對實時語音通話功能進行了重要更新。這一進展標誌着豆包在語音交互領域的又一次飛躍，超越了之前的 ASR（自動語音識別）、LLM(大語言模型)和 TTS(文生音頻)的級聯方案，將語音識別、理解和生成整合在同一個模型中。

經過《智能涌現》的測試，新版豆包的最大亮點在於其具備了人類般的表達能力和情感輸出，提升了對話的流暢度與智能水平。尤其是 “靈魂歌手” 和 “百變大咖” 模式，讓豆包不僅能夠進行唱歌，還能夠進行豐富的角色扮演，成爲用戶互動的新寵。例如，當用戶要求豆包模仿明星虞書欣的聲音時，豆包不僅成功復刻了角色的語氣，還調皮地表達了自己的獨特個性。

更值得一提的是，豆包能夠在自然對話中即興創作歌曲，而不需要複雜的指令或專業的提示。用戶可以隨意要求豆包唱歌，甚至可以指定歌詞主題。豆包的表現雖然偶有小失誤，但其反應速度和即興創作能力卻令人驚歎，展現出其強大的擬人化能力。

此外，豆包新增加的 “受氣小包” 和 “誇誇大師” 兩種人格模式也給用戶帶來了新鮮感。這些人格模式讓豆包在不同情境下表現出不同的情緒與風格，從而增強了互動的趣味性與真實感。

在語音交互技術日益發展的今天，豆包的這一更新不僅將 AI 的應用場景擴展至情感陪伴、心理諮詢等領域，還讓 AI 的情感交流能力更加貼近人類。這一轉變無疑將使豆包在競爭激烈的市場中佔據一席之地，並引領 AI 交互的未來發展。

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

復旦大學MOSS團隊發佈MOSS-Speech，首次實現端到端語音對話，模型已在Hugging Face上線並開源。採用“層拆分”架構，凍結原文本模型，新增語音理解、語義對齊和聲碼器層，可一次性完成語音問答、情緒模仿和笑聲生成，無需傳統三段式流程。評測顯示，在ZeroSpeech2025任務中詞錯率降至4.1%，情感識別準確率達91.2%。

Wispr再獲 2500 萬美元B+輪融資：年用戶增長 100 倍，擬自研ASR把錯誤率壓至10%

語音AI公司Wispr完成2500萬美元B+輪融資，總融資額達8100萬美元。其產品Flow Dictation上線三個月後，50%字符通過語音輸入，已服務270家財富500強企業及125家付費機構。用戶年同比增長100倍，12個月留存率70%，月環比增速穩定在40%。自研ASR錯誤率僅10%，技術表現突出。

豆包App推出新語音模式，搶先GPT-4o實現唱歌和角色扮演

相關推薦

不只是對話！豆包App內置地圖導航，AI大模型正全面滲透日常出行

阿里語音大模型霸榜國際權威榜單，奪得國產語音 AI“三冠王”

特斯拉車機語音大模型在滬完成備案，智能座艙體驗迎來AI升級

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

Wispr再獲 2500 萬美元B+輪融資：年用戶增長 100 倍，擬自研ASR把錯誤率壓至10%