重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

全球人工智能界正迎來一場關於“AI母語”的技術革新。針對當前大模型普遍存在的“以語言爲中心、外掛視覺或語音模塊”的拼湊式異構架構，大模型研發團隊於近日正式發佈並開源了全新原生多模態大模型 LongCat-Next 及其核心的離散分詞器，旨在打破模態阻隔，讓 AI 能夠像處理文字一樣原生地理解和感知物理世界。

這一破局之舉的核心在於重構了 AI 的底層架構。團隊在研究中發現，在統一的建模框架與優化目標下，可以構造出一種語義完備的離散表示。爲此，LongCat-Next 引入了全新的 DiNA（離散原生自迴歸）架構，徹底改變了過去多模態信息僅能“被投影”而無法“被內化”的困境。該架構將圖像、聲音和文字統一轉化爲同源的離散 Token，讓所有模態在底座模型中共享同一套參數、注意力機制和損失函數。無論是視覺的看與畫，還是聽覺的聽與說，在數學形式上都被收斂爲優雅的“下一 Token 預測(NTP)”，從而實現了架構的極簡與部署的輕量化。

在“視覺單詞”的構造上，團隊首創了 dNaViT（離散原生分辨率視覺分詞器）技術。該技術支持原生任意分辨率，在處理文檔解析和複雜圖表推理等細節敏感任務時表現優異。dNaViT 採用8層殘差向量量化(RVQ)機制，實現了高達28倍的極致像素空間壓縮，並利用解耦的雙軌生成解碼器確保了圖像和文本還原的高保真度。這種設計實現了“圖像→Token→圖像”的完整閉環，讓模型在語言內部真正學習並內生出屬於自己的視覺語言。

針對行業公認的“離散化必然損失信息”難題，團隊通過構建 SAE（語義對齊編碼器）對錶徵進行層級化擬合，成功在有限的離散空間內逼近高維連續表示，證明了離散表示同樣能成爲統一理解與生成的完備載體。在以 LongCat-Flash-Lite MoE(68.5B總參數，3B激活參數)爲基座的基準測試中，LongCat-Next 展現出了極具工業級潛力的跨模態協同能力。在 OmniDocBench 測試中，其表現不僅超越了 Qwen3-Omni，更擊敗了專用視覺模型 Qwen3-VL，打破了離散模型不擅長細粒度感知的刻板印象。

此外，該統一框架在實現跨模態協同的同時，並未折損其核心語言能力。數據顯示，LongCat-Next 在 MMLU-Pro 和 C-Eval 等純文本測試中表現持續領先;在工具調用與代碼編寫上，其 SWE-Bench 成績顯著超越同類模型。在音頻領域，該模型同樣大放異彩，不僅在 SeedTTS 的中英文語音合成中實現了極低的誤字率，還支持低延遲的並行文本語音生成與個性化語音克隆。隨着該模型在GitHub與HuggingFace的全量開源，原生多模態技術正邁向更深遠的產業落地。

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

相關推薦

美團發佈原生多模態 LongCat-Next：視覺語音實現底層統一

Airbnb CEO Brian Chesky進軍AI:計劃成立全新人工智能實驗室

SpaceX衝刺1.78萬億美元估值:AI業務5年暴漲100倍成最大籌碼

OpenAI 升級 ChatGPT 記憶系統：算力降至 1/5，瞄準過時與錯誤兩大痛點

OpenAI 神祕 AI 硬件年底亮相，前蘋果傳奇設計大師傾力打造