4 月 3 日,
技術核心:DiNA 架構實現“模態內化”
爲了打破模態間的隔閡,
全模態統一: 無論是文字、圖像還是音頻,模型都採用同一套參數、注意力機制和損失函數。
理解與生成對稱: 在統一的數學形式下,預測文字 Token 即爲“理解”,預測圖像 Token 即爲“生成”,兩者在訓練中表現出顯著的協同潛力。
極致壓縮: 採用 dNaViT 視覺分詞器,支持任意分辨率輸入,通過 8 層殘差向量量化實現高達 28 倍的像素空間壓縮,完整保留 OCR、財報解析等任務中的關鍵細節。
實證性能:離散建模沒有“天花板”
細粒度感知: 在 OmniDocBench 密集文本場景測試中,性能不僅超越 Qwen3-Omni,更優於專用視覺模型 Qwen3-VL。
視覺推理: 在 MathVista 測試中達到 83.1 的領先水平,展現出強大的工業級邏輯能力。
跨模態協同: 在保持領先語言能力(C-Eval 86.80)的同時,支持低延遲的並行文本語音生成及可定製的語音克隆。
行業觀察:通往物理世界 AI 的基石
長期以來,大模型一直是以語言爲中心的系統。而
目前,
