4 月 3 日,美團技術團隊正式發佈原生多模態大模型 LongCat-Next。該模型突破了傳統“語言基座+插件”的拼湊架構,通過將圖像、語音與文本統一轉化爲同源的離散 Token,讓 AI 第一次能夠像處理文字一樣,原生地“看”與“聽”物理世界。

技術核心:DiNA 架構實現“模態內化”

爲了打破模態間的隔閡,美團構建了 DiNA(離散原生自迴歸)架構,實現了多模態建模的深度統一:

  • 全模態統一: 無論是文字、圖像還是音頻,模型都採用同一套參數、注意力機制和損失函數。

  • 理解與生成對稱: 在統一的數學形式下,預測文字 Token 即爲“理解”,預測圖像 Token 即爲“生成”,兩者在訓練中表現出顯著的協同潛力。

  • 極致壓縮: 採用 dNaViT 視覺分詞器,支持任意分辨率輸入,通過 8 層殘差向量量化實現高達 28 倍的像素空間壓縮,完整保留 OCR、財報解析等任務中的關鍵細節。

實證性能:離散建模沒有“天花板

LongCat-Next在多個維度上展現了超越專用模型的性能,有力回擊了“離散化必然損失信息”的傳統觀點:

  • 細粒度感知: 在 OmniDocBench 密集文本場景測試中,性能不僅超越 Qwen3-Omni,更優於專用視覺模型 Qwen3-VL。

  • 視覺推理: 在 MathVista 測試中達到 83.1 的領先水平,展現出強大的工業級邏輯能力。

  • 跨模態協同: 在保持領先語言能力(C-Eval 86.80)的同時,支持低延遲的並行文本語音生成及可定製的語音克隆。

行業觀察:通往物理世界 AI 的基石

長期以來,大模型一直是以語言爲中心的系統。而 LongCat-Next 的意義在於,它證明了物理信息可以被離散化並像語言一樣被建模。當 AI 擁有了統一的“母語”,它在調用工具、編寫代碼以及理解複雜圖表時會變得更加聰明和直觀。

目前,美團已將LongCat-Next 模型dNaViT 分詞器全部開源。這一小尺寸、高潛力的原生離散架構,將爲開發者構建能感知並作用於真實世界的 AI 提供重要工具。