正文

上交大攜手字節跳動推出LSLM：AI語音模型實現"邊聽邊說"突破

發布於AI新閒資訊

時間 :Aug 6, 2024

閱讀 :1分鐘

近日，上交大LANCE實驗室和字節跳動聯手推出了一款名爲LSLM的新型交互式語音模型。據稱，這款模型可以邊聽邊說，效果非常好，接近人類自然的對話方式。

LSLM被稱爲“小L”，解決了現有語音模型在實時交互、抗噪性和對未知說話者識別上的侷限性，使其更接近人類的自然對話方式。它採用端到端設計，包含聽覺和發聲兩個通道，使用解碼器-only TTS 進行語音生成，並使用流式自監督學習（SSL）編碼器來實時處理音頻輸入。

“小L”有着獨特的特點:全雙工建模（FDM），可以同時聽和說，實現對話過程中的打斷和交替;抗噪性強，在嘈雜的環境中能夠保持穩定，適應各種現實場景;對未知說話者的敏感性，可以識別和響應新的聲音和指令，適應不同的用戶。

項目詳細:https://ziyang.tech/LSLM/

論文:https://arxiv.org/abs/2408.02622

字節火山引擎啓動高薪招聘，實質性進軍“人形具身機器人”賽道

字節跳動通過火山引擎高薪招聘具身智能算法專家，月薪9.5萬至12萬元，顯示其正聚焦人形機器人研發，實質性佈局前沿科技賽道。

Nov 5, 2025

154.4k

字節跳動 AI 編程工具 Trae 下架 Claude 模型，Pro 會員獲補償

字節跳動AI編程工具Trae宣佈，因服務中斷將停止支持Claude模型。爲補償Pro會員，平臺將在2026年1月31日前，每月額外提供50%快速請求額度，使會員每月可享300次快速請求。此舉旨在緩解服務調整帶來的影響。

Nov 4, 2025

215.5k

中國科大與字節發佈 MoGA 長視頻生成模型:分鐘級多鏡頭短片一鍵生成

中科大與字節跳動聯合推出端到端長視頻生成模型，能直接生成分鐘級、480p分辨率、24fps的高質量視頻，支持多鏡頭切換。核心創新是底層算法MoGA，這是一種全新注意力機制，專攻長視頻生成難題，標誌着國產視頻生成技術實現關鍵突破。

Oct 24, 2025

251.1k

字節跳動AI助手Cici在海外多國應用榜登頂：與國內豆包採用雙品牌策略

字節跳動AI助手Cici在海外市場表現亮眼，墨西哥谷歌商店下載量居首，英國蘋果商店進入前十。該應用與國內豆包同期推出，採用雙品牌出海策略，開發者身份雖未公開標註，但字節跳動已向《福布斯》確認。

Oct 21, 2025

138.7k

顛覆傳統！Mini-o3 開源模型實現超長視覺推理，深度思考不再是難題

近日，字節跳動與香港大學聯合推出了一款全新的開源視覺推理模型 ——Mini-o3，標誌着多輪視覺推理技術的又一重大突破。與以往只能進行1-2輪對話的視覺語言模型（VLM）不同，Mini-o3在訓練時限制了對話輪數爲6輪，但在測試階段卻能將推理輪數擴展至數十輪，極大提升了視覺問題處理的能力。Mini-o3的強大之處在於其在高難度視覺搜索任務中實現了深度推理，達到當前技術的頂尖水平。這得益於該模型的三個核心設計要素。首先，研究團隊構建了一個名爲 VisualProbe 的視覺探測數據集，包

Sep 16, 2025

158.2k

智啟未來，您的人工智能解決方案智庫