全球人工智能界正迎來一場關於“AI母語”的技術革新。針對當前大模型普遍存在的“以語言爲中心、外掛視覺或語音模塊”的拼湊式異構架構,大模型研發團隊於近日正式發佈並開源了全新原生多模態大模型 LongCat-Next 及其核心的離散分詞器,旨在打破模態阻隔,讓 AI 能夠像處理文字一樣原生地理解和感知物理世界。
這一破局之舉的核心在於重構了 AI 的底層架構。團隊在研究中發現,在統一的建模框架與優化目標下,可以構造出一種語義完備的離散表示。爲此,LongCat-Next 引入了全新的 DiNA(離散原生自迴歸)架構,徹底改變了過去多模態信息僅能“被投影”而無法“被內化”的困境。該架構將圖像、聲音和文字統一轉化爲同源的離散 Token,讓所有模態在底座模型中共享同一套參數、注意力機制和損失函數。無論是視覺的看與畫,還是聽覺的聽與說,在數學形式上都被收斂爲優雅的“下一 Token 預測(NTP)”,從而實現了架構的極簡與部署的輕量化。

在“視覺單詞”的構造上,團隊首創了 dNaViT(離散原生分辨率視覺分詞器)技術。該技術支持原生任意分辨率,在處理文檔解析和複雜圖表推理等細節敏感任務時表現優異。dNaViT 採用8層殘差向量量化(RVQ)機制,實現了高達28倍的極致像素空間壓縮,並利用解耦的雙軌生成解碼器確保了圖像和文本還原的高保真度。這種設計實現了“圖像→Token→圖像”的完整閉環,讓模型在語言內部真正學習並內生出屬於自己的視覺語言。
針對行業公認的“離散化必然損失信息”難題,團隊通過構建 SAE(語義對齊編碼器)對錶徵進行層級化擬合,成功在有限的離散空間內逼近高維連續表示,證明了離散表示同樣能成爲統一理解與生成的完備載體。在以 LongCat-Flash-Lite MoE(68.5B總參數,3B激活參數)爲基座的基準測試中,LongCat-Next 展現出了極具工業級潛力的跨模態協同能力。在 OmniDocBench 測試中,其表現不僅超越了 Qwen3-Omni,更擊敗了專用視覺模型 Qwen3-VL,打破了離散模型不擅長細粒度感知的刻板印象。
此外,該統一框架在實現跨模態協同的同時,並未折損其核心語言能力。數據顯示,LongCat-Next 在 MMLU-Pro 和 C-Eval 等純文本測試中表現持續領先;在工具調用與代碼編寫上,其 SWE-Bench 成績顯著超越同類模型。在音頻領域,該模型同樣大放異彩,不僅在 SeedTTS 的中英文語音合成中實現了極低的誤字率,還支持低延遲的並行文本語音生成與個性化語音克隆。隨着該模型在
