美團發佈原生多模態 LongCat-Next：視覺語音實現底層統一

4 月 3 日，美團技術團隊正式發佈原生多模態大模型 LongCat-Next。該模型突破了傳統“語言基座+插件”的拼湊架構，通過將圖像、語音與文本統一轉化爲同源的離散 Token，讓 AI 第一次能夠像處理文字一樣，原生地“看”與“聽”物理世界。

技術核心：DiNA 架構實現“模態內化”

爲了打破模態間的隔閡，美團構建了 DiNA（離散原生自迴歸）架構，實現了多模態建模的深度統一：

全模態統一： 無論是文字、圖像還是音頻，模型都採用同一套參數、注意力機制和損失函數。
理解與生成對稱： 在統一的數學形式下，預測文字 Token 即爲“理解”，預測圖像 Token 即爲“生成”，兩者在訓練中表現出顯著的協同潛力。
極致壓縮： 採用 dNaViT 視覺分詞器，支持任意分辨率輸入，通過 8 層殘差向量量化實現高達 28 倍的像素空間壓縮，完整保留 OCR、財報解析等任務中的關鍵細節。

實證性能：離散建模沒有“天花板”

LongCat-Next在多個維度上展現了超越專用模型的性能，有力回擊了“離散化必然損失信息”的傳統觀點：

細粒度感知： 在 OmniDocBench 密集文本場景測試中，性能不僅超越 Qwen3-Omni，更優於專用視覺模型 Qwen3-VL。
視覺推理： 在 MathVista 測試中達到 83.1 的領先水平，展現出強大的工業級邏輯能力。
跨模態協同： 在保持領先語言能力（C-Eval 86.80）的同時，支持低延遲的並行文本語音生成及可定製的語音克隆。

行業觀察：通往物理世界 AI 的基石

長期以來，大模型一直是以語言爲中心的系統。而 LongCat-Next 的意義在於，它證明了物理信息可以被離散化並像語言一樣被建模。當 AI 擁有了統一的“母語”，它在調用工具、編寫代碼以及理解複雜圖表時會變得更加聰明和直觀。

目前，美團已將LongCat-Next 模型及dNaViT 分詞器全部開源。這一小尺寸、高潛力的原生離散架構，將爲開發者構建能感知並作用於真實世界的 AI 提供重要工具。

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

全球AI領域正經歷“AI母語”技術變革。針對當前大模型“語言中心、外掛視覺或語音”的拼湊架構，團隊發佈並開源了原生多模態大模型LongCat-Next及離散分詞器，旨在打破模態壁壘，讓AI像處理文字一樣理解物理世界。核心是通過重構底層架構實現突破。

百度文心發佈PaddleOCR-VL-1.6:準確率破96.33%刷新文檔解析SOTA

百度發佈文心大模型衍生模型PaddleOCR-VL-1.6，在OmniDocBench v1.6評測中以96.33%準確率超越Gemini-3-Pro、GPT-5.2等主流模型，刷新SOTA，綜合性能全球第一。該模型標誌着多模態大模型在複雜文檔理解與真實場景解析上的重大突破，支持超100種語言識別，用戶覆蓋廣泛。

字節跳動開源Lance 3B：用一個“腦子”同時搞定圖視理解與生成

字節跳動開源Lance，一款僅3B激活參數的原生統一多模態大模型，打破“理解模型（VLM）”與“生成模型（DiT/Diffusion）”的技術壁壘。它以極致輕量化實現全功能覆蓋，挑戰當前AI行業堆砌參數或“拼積木”組裝模型的風氣，成爲技術創新的重要突破。