上海交通大學X-LANCE人工智能實驗室與字節跳動聯手打造的LSLM(Listen-Speak Language Model)全雙工語言模型,讓AI助手能夠在對話中邊說邊聽,實現真正的實時交互。

當你正與AI助手交談時,突然想到一個重要問題。你不必等待它說完,可以直接打斷並提出新的疑問。AI助手能夠立即理解並作出迴應,就像與真人對話一樣自然流暢。這不再是科幻電影中的場景,而是已經成爲現實。

image.png

LSLM的核心優勢在於其"邊說邊聽"的能力。這個創新模型不僅能在說話的同時傾聽外界聲音,還支持實時語音交互,即使在嘈雜的環境中也能正常工作。它巧妙地整合了聽力和說話兩個通道,可以同時處理語音輸入和生成語音輸出。

傳統的語音語言模型(SLM)只能進行輪流對話,無法應對實際口語場景中的即時打斷。LSLM的出現解決了這一難題,讓AI與人類的對話更加自然。它採用了基於token的解碼器僅文本到語音(TTS)系統,結合流式自監督學習(SSL)編碼器,實現了實時的自迴歸生成和對話輪轉換檢測。

研究團隊探索了早期融合、中期融合和晚期融合三種策略,其中中期融合在語音生成和實時交互之間取得了最佳平衡。通過命令基礎FDM和聲音基礎FDM兩種實驗設置,LSLM展現出對噪聲的強大抵抗力和對多樣化指令的高度敏感性。

更令人驚喜的是,LSLM實現了雙重通信能力,而對現有系統的影響微乎其微。這意味着它可以無縫集成到現有的AI系統中,大幅提升用戶體驗而不需要徹底重構整個框架。

LSLM的應用前景十分廣闊。未來,無論是在家庭、辦公室還是公共場所,對話系統都將能夠更自然地與人類進行實時交流。這不僅將改變我們與機器交流的方式,更有可能重塑整個人機交互的格局。

在技術演示中,研究團隊通過對比傳統TTS與LSLM在清晰和嘈雜環境下的表現,生動展示了LSLM的優勢。他們還通過圖解闡明瞭語音語言模型從單工、半雙工到全雙工的演變過程,讓人們更直觀地理解這一技術突破的重要性。

隨着LSLM技術的不斷成熟,我們有理由期待,未來的AI助手將爲用戶帶來更加豐富、流暢和人性化的交互體驗。與AI進行自然、連貫的對話,可能很快就會像與朋友聊天一樣輕鬆自如。

這項研究不僅在學術上具有重要意義,也爲語音交互技術的商業應用開闢了新的可能性。LSLM的出現,標誌着我們正在進入一個全新的AI交互時代,人機對話的界限將變得越來越模糊,技術與人性的融合將達到一個新的高度。

項目地址:https://top.aibase.com/tool/lslm