世界中の人工知能界では、「AIの母語」に関する技術革新が進行しています。現在、大規模モデルが一般的に持つ「言語を中心に、視覚や音声モジュールを外付けする」という構造的な異質なアーキテクチャに対し、大規模モデル開発チームは最近、新規のネイティブ多モーダル大規模モデルである LongCat-Next とそのコアとなる離散トークンライザーを正式にリリースし、オープンソース化しました。この取り組みにより、モードの境界を打ち破り、AIが文章を処理するようにネイティブに物理世界を理解・感知できるようになることを目指しています。

この画期的な取り組みの鍵は、AIの下位構造を再構築することにあります。研究の中で、統一されたモデリングフレームワークと最適化目標の下で、意味的に完全な離散表現を構築することが可能であることが分かったため、LongCat-Next は新たな DiNA(離散ネイティブ自己回帰)アーキテクチャを導入しました。これにより、これまで多モーダル情報が「投影される」だけで「内化されない」という問題が解決されました。このアーキテクチャにより、画像、音声、文章が同一のソースからの離散トークンに統合され、すべてのモードがベースモデルで同じパラメータ、アテンションメカニズム、損失関数を共有します。視覚的な見たり描いたり、聴覚的な聞き取りや話すことなど、数学的な形式ではすべて「次のトークン予測(NTP)」に収束し、アーキテクチャの極限的な簡素化と軽量なデプロイメントを実現しています。

image.png

「視覚的単語」の構築において、チームは dNaViT(離散ネイティブ解像度ビジュアルトークナイザー)技術を独創的に開発しました。この技術は、ネイティブな任意の解像度をサポートしており、ドキュメント解析や複雑なグラフ推論などの細かいタスクにおいて優れた性能を発揮します。dNaViT は8層の残差ベクトル量子化(RVQ)メカニズムを採用し、最大28倍のピクセル空間圧縮を実現し、画像とテキストの高精度な復元を確保するために、非依存的な二軌生成デコーダーを使用しています。このような設計により、「画像→トークン→画像」の完全な閉ループが実現され、モデルは言語内で実際に自らの視覚言語を学習し、内生的に獲得することができます。

業界で認識されている「離散化は必然的に情報損失をもたらす」という課題に対して、チームは SAE(セマンティックアライメントエンコーダー)を構築し、表現を階層的にフィットさせることで、有限な離散空間内で高次元連続表現に近づけることに成功しました。これは、離散表現が統一的な理解と生成の完全なキャリアとなり得ることを証明しています。LongCat-Flash-Lite MoE(総パラメータ68.5B、活性化パラメータ3B)をベースとした基準テストでは、LongCat-Next は非常に工業的な潜在能力を持つクロスモーダル協調能力を示しました。OmniDocBenchテストにおいては、Qwen3-Omniを上回るだけでなく、専門的なビジュアルモデル Qwen3-VL をも倒し、離散モデルが細粒度の認識に不向きであるという刻板印象を打ち破りました。

さらに、この統一フレームワークは、クロスモーダル協調を実現しながらも、核心的な言語能力を損なっていません。データによると、LongCat-Next は MMLU-Pro や C-Eval などの純テキストテストにおいて継続的にリードしています。ツール呼び出しやコード作成においては、SWE-Bench の結果が同種モデルを大きく上回っています。音声分野でも同様に大きな成果を収めています。SeedTTSにおける中英語の音声合成では極めて低い誤字率を達成し、低遅延の並行テキスト音声生成とパーソナライズされた音声クローンのサポートも可能です。このモデルがGitHubおよびHuggingFaceで完全にオープンソース化されたことにより、ネイティブ多モーダル技術はより深い産業への実装に向かっています。