
與過去需要通過 ASR(語音轉文本)、LLM(大語言模型)、TTS(文本轉語音)多個環節串聯的架構不同,
此外,該模型在個性化控制方面表現卓越。通過“語音+文本”的雙重引導,用戶不僅能定義 AI 的角色背景,還能精確控制其音色和語調。AIbase 獲悉,
研究:https://research.nvidia.com/labs/adlr/personaplex/
劃重點:
🎙️ 全雙工交互:
支持實時語音流處理,允許用戶在 AI 說話時隨時插話或重疊對話,實現極速響應。PersonaPlex-7B-v1 🧠 單模型架構: 捨棄了繁瑣的插件式管道,採用單一
結構同步預測文本和語音標記,從底層提升對話自然度。Transformer 🎭 深度個性化: 支持高達200token 的系統提示詞及特定的語音嵌入,可靈活定製 AI 的角色性格、業務知識及情感音色。
