字節、上海交大聯合推全新語音模型LSLM 可邊聽邊說

上海交通大學X-LANCE人工智能實驗室與字節跳動聯手打造的LSLM（Listen-Speak Language Model）全雙工語言模型，讓AI助手能夠在對話中邊說邊聽，實現真正的實時交互。

當你正與AI助手交談時，突然想到一個重要問題。你不必等待它說完，可以直接打斷並提出新的疑問。AI助手能夠立即理解並作出迴應，就像與真人對話一樣自然流暢。這不再是科幻電影中的場景，而是已經成爲現實。

LSLM的核心優勢在於其"邊說邊聽"的能力。這個創新模型不僅能在說話的同時傾聽外界聲音，還支持實時語音交互，即使在嘈雜的環境中也能正常工作。它巧妙地整合了聽力和說話兩個通道，可以同時處理語音輸入和生成語音輸出。

傳統的語音語言模型（SLM）只能進行輪流對話，無法應對實際口語場景中的即時打斷。LSLM的出現解決了這一難題，讓AI與人類的對話更加自然。它採用了基於token的解碼器僅文本到語音(TTS)系統，結合流式自監督學習(SSL)編碼器，實現了實時的自迴歸生成和對話輪轉換檢測。

研究團隊探索了早期融合、中期融合和晚期融合三種策略，其中中期融合在語音生成和實時交互之間取得了最佳平衡。通過命令基礎FDM和聲音基礎FDM兩種實驗設置，LSLM展現出對噪聲的強大抵抗力和對多樣化指令的高度敏感性。

更令人驚喜的是，LSLM實現了雙重通信能力，而對現有系統的影響微乎其微。這意味着它可以無縫集成到現有的AI系統中，大幅提升用戶體驗而不需要徹底重構整個框架。

LSLM的應用前景十分廣闊。未來，無論是在家庭、辦公室還是公共場所，對話系統都將能夠更自然地與人類進行實時交流。這不僅將改變我們與機器交流的方式，更有可能重塑整個人機交互的格局。

在技術演示中，研究團隊通過對比傳統TTS與LSLM在清晰和嘈雜環境下的表現，生動展示了LSLM的優勢。他們還通過圖解闡明瞭語音語言模型從單工、半雙工到全雙工的演變過程，讓人們更直觀地理解這一技術突破的重要性。

隨着LSLM技術的不斷成熟，我們有理由期待，未來的AI助手將爲用戶帶來更加豐富、流暢和人性化的交互體驗。與AI進行自然、連貫的對話，可能很快就會像與朋友聊天一樣輕鬆自如。

這項研究不僅在學術上具有重要意義，也爲語音交互技術的商業應用開闢了新的可能性。LSLM的出現，標誌着我們正在進入一個全新的AI交互時代，人機對話的界限將變得越來越模糊，技術與人性的融合將達到一個新的高度。

拒絕“一問一答”：京東開源實時視頻交互模型 JoyAI-VL-Interaction