英偉達發佈 PersonaPlex-7B-v1:重塑實時語音交互的“全雙工”黑科技

英偉達研究團隊近日正式發佈了名爲 PersonaPlex-7B-v1 的全雙工語音對語音對話模型。這款模型徹底打破了傳統 AI 語音助手“聽一句、回一句”的呆板模式，旨在實現更接近真人的自然對話體驗。

與過去需要通過 ASR（語音轉文本）、LLM(大語言模型)、TTS(文本轉語音)多個環節串聯的架構不同，PersonaPlex採用了一個單一的 Transformer 架構，直接完成語音理解與生成的全過程。AIbase 瞭解到，這種“端到端”的設計極大降低了響應延遲，並賦予了 AI 處理自然中斷、語音重疊以及即時反饋的能力。簡單來說，就像真人聊天一樣，AI 在說話的同時也在持續傾聽，即便用戶突然打斷，它也能迅速做出反應。

此外，該模型在個性化控制方面表現卓越。通過“語音+文本”的雙重引導，用戶不僅能定義 AI 的角色背景，還能精確控制其音色和語調。AIbase 獲悉，英偉達在訓練中結合了海量真實通話數據與合成場景，使模型既具備自然的語言習慣，又能嚴格遵守特定行業的業務規則。目前的評估結果顯示，PersonaPlex-7B-v1在對話流暢度和任務達成率上均優於多數開源及閉源系統。

研究:https://research.nvidia.com/labs/adlr/personaplex/

劃重點:

🎙️ 全雙工交互: PersonaPlex-7B-v1支持實時語音流處理，允許用戶在 AI 說話時隨時插話或重疊對話，實現極速響應。
🧠 單模型架構: 捨棄了繁瑣的插件式管道，採用單一Transformer結構同步預測文本和語音標記，從底層提升對話自然度。
🎭 深度個性化: 支持高達200token 的系統提示詞及特定的語音嵌入，可靈活定製 AI 的角色性格、業務知識及情感音色。

英偉達發佈 PersonaPlex-7B-v1:重塑實時語音交互的“全雙工”黑科技

相關推薦

五角大樓將Anthropic列爲供應鏈風險企業，引發AI行業動盪

拒絕盲目試點：OpenAI 發佈企業轉型“五大 AI 價值模型”白皮書

月費99美元起!亞馬遜發佈醫療版 AI 助手，深度集成 EHR 掘金智慧醫療

阿里澄清千問團隊集體離職流言：穩如泰山，服務正常！

Roblox 推出 AI 實時改寫功能，讓聊天違規不“斷片”

英偉達發佈 PersonaPlex-7B-v1:重塑實時語音交互的“全雙工”黑科技

相關推薦

五角大樓將Anthropic列爲供應鏈風險企業，引發AI行業動盪

​拒絕盲目試點：OpenAI 發佈企業轉型“五大 AI 價值模型”白皮書

月費99美元起!亞馬遜發佈醫療版 AI 助手，深度集成 EHR 掘金智慧醫療

阿里澄清千問團隊集體離職流言：穩如泰山，服務正常！

​Roblox 推出 AI 實時改寫功能，讓聊天違規不“斷片”

拒絕盲目試點：OpenAI 發佈企業轉型“五大 AI 價值模型”白皮書

Roblox 推出 AI 實時改寫功能，讓聊天違規不“斷片”