近日,上交大LANCE實驗室和字節跳動聯手推出了一款名爲LSLM的新型交互式語音模型。據稱,這款模型可以邊聽邊說,效果非常好,接近人類自然的對話方式。

LSLM被稱爲“小L”,解決了現有語音模型在實時交互、抗噪性和對未知說話者識別上的侷限性,使其更接近人類的自然對話方式。它採用端到端設計,包含聽覺和發聲兩個通道,使用解碼器-only TTS 進行語音生成,並使用流式自監督學習(SSL)編碼器來實時處理音頻輸入。

“小L”有着獨特的特點:全雙工建模(FDM),可以同時聽和說,實現對話過程中的打斷和交替;抗噪性強,在嘈雜的環境中能夠保持穩定,適應各種現實場景;對未知說話者的敏感性,可以識別和響應新的聲音和指令,適應不同的用戶。

項目詳細:https://ziyang.tech/LSLM/

論文:https://arxiv.org/abs/2408.02622