4月3日、
技術の核:DiNAアーキテクチャによる「モダリティ内化」
モダリティ間の隔絶を打破するために、
全モダリティ統一: テキスト、画像、またはオーディオに関係なく、モデルは同一のパラメータ、注目機構、および損失関数を使用します。
理解と生成の対称性: 統一された数学形式において、テキストトークンを予測することは「理解」であり、画像トークンを予測することは「生成」です。訓練中に両者は顕著な協調的潜在能力を示します。
極限的な圧縮: dNaViTビジョントークナイザ を採用し、任意解像度の入力をサポートします。8層の残差ベクトル量子化により、28倍のピクセル空間圧縮が可能となり、OCR、財務報告解析などのタスクで重要な詳細を完全に保持します。
実証性能:ディスクリートモデリングには「上限」がない
細粒度の認識: OmniDocBenchの密集テキストシナリオテストでは、Qwen3-Omniを上回るだけでなく、専用視覚モデルであるQwen3-VLよりも優れています。
視覚推論: MathVistaテストで83.1のリードを記録し、強力な産業レベルの論理能力を示しています。
マルチモーダル協働: トップクラスの言語能力(C-Eval 86.80)を維持しながら、低遅延の並行テキスト・音声生成およびカスタマイズ可能な音声クローンをサポートしています。
業界観察:物理世界におけるAIの基盤
長年にわたり、大規模モデルは言語中心のシステムでした。しかし、
現在、
