9月1日,美團正式推出了 LongCat-Flash 系列模型,並在近期開源了 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 兩大版本,吸引了衆多開發者的關注。今天,LongCat 團隊宣佈推出全新家族成員 ——LongCat-Flash-Omni,這款模型在原有基礎上實現了多項技術創新,標誌着全模態實時交互的新時代。

LongCat-Flash-Omni 基於 LongCat-Flash 系列的高效架構設計,採用了最新的 Shortcut-Connected MoE(ScMoE)技術,集成了高效的多模態感知模塊和語音重建模塊。儘管該模型總參數高達5600億(激活參數270億),依然能夠提供低延遲的實時音視頻交互能力。這一突破爲開發者提供了更加高效的多模態應用場景解決方案。

QQ20251103-102218.png

根據綜合評估結果,LongCat-Flash-Omni 在全模態基準測試中表現優異,達到了開源最先進水平(SOTA)。該模型在文本、圖像、視頻理解及語音感知與生成等關鍵單模態任務中均展現出強大的競爭力,實現了 “全模態不降智” 的目標。

LongCat-Flash-Omni 採用了一體化的全模態架構,整合了離線多模態理解與實時音視頻交互能力。其設計理念爲完全端到端,使用視覺與音頻編碼器作爲多模態感知器,能夠直接生成文本與語音 token,並通過輕量級音頻解碼器實現自然語音波形的重建,確保低延遲的實時交互。

此外,該模型引入了漸進式早期多模融合訓練策略,以應對全模態模型訓練中不同模態數據分佈的異質性。這一策略確保了各模態之間的有效協同,推動了模型整體性能的提升。

在具體性能測試中,LongCat-Flash-Omni 在多個領域中表現出色,特別是在文本理解和圖像理解任務中,其能力不僅未出現衰減,反而實現了顯著提升。音頻和視頻處理方面,該模型的表現同樣突出,尤其是在實時音視頻交互的自然度和流暢度方面,領先於許多開源模型。

LongCat 團隊還爲用戶提供了全新的體驗渠道,用戶可通過官網體驗圖片、文件上傳和語音通話功能。同時,LongCat 官方 App 現已發佈,支持聯網搜索和語音通話,未來將推出視頻通話功能。

  • Hugging Face:

    https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

  • Github:

    https://github.com/meituan-longcat/LongCat-Flash-Omni