従来のMoE(Mix of Experts)アーキテクチャは、エキスパート数を増やすことでモデルの能力を向上させますが、限界効果逓減や高コストな通信オーバーヘッドに悩まされてきました。今日、メイドゥンのLongCatチームは新しいモデルLongCat-Flash-Liteを発表しました。このモデルは「埋め込み拡張(Embedding Expansion)」という新たなパラダイムを採用し、性能のボトルネックを突破しました。

QQ20260206-155117.png

主要な進展:埋め込み拡張がエキスパート拡張を上回る

LongCatチームの研究によると、特定の条件下では、埋め込み層を拡張することがエキスパート数を単純に増やすことよりも優れたパレート前線を達成できることが分かっています。これにより、LongCat-Flash-Liteは685億の総パラメータを持ちながら、N-gram埋め込み層を採用することで、1回の推論で29億〜45億のパラメータのみを活性化します。そのうち300億以上のパラメータが効率的に埋め込み層に割り当てられ、N-gramによって局所的な意味を捉え、例えば「プログラミングコマンド」などの細分化されたシナリオを正確に理解することができ、理解精度を大幅に向上させています。

QQ20260206-155453.png

垂直的最適化:アーキテクチャからシステムまでの全工程の進化

理論上の疎性の利点を実際のパフォーマンスに変えるために、メイドゥンはシステムレベルで3つの最適化を実施しました:

  1. パラメータのスマート配分:埋め込み層のパラメータ割合は46%で、O(1)の検索複雑さにより、パラメータ拡大に伴う計算量の線形増加を回避しています。

  2. 専用キャッシュとカーネル統合:KVキャッシュに似たN-gramキャッシュ機構を設計し、CUDAカーネル(AllReduce + RMSNormの統合など)をカスタマイズすることで、I/O遅延を大幅に低減しました。

  3. 推測デコード協調:3段階のリスクを取った推論によりバッチサイズを拡大し、通常の埋め込み層のプロトタイプモデルと組み合わせて、さらに遅延を短縮しました。

典型的な負荷下(入力4K、出力1K)において、このモデルのAPIは500〜700トークン/sの高速生成速度を提供し、最大256Kのコンテキストをサポートしています。

パフォーマンスの成果:エージェントとコードでリード

多数の権威あるベンチマークテストで、LongCat-Flash-Liteは階層を超えた競争力を示しています:

  • エージェントタスク:$\tau^2$-Benchにおける通信、小売、航空の3つのシーンで最高点を獲得しました。

  • コード能力:SWE-Benchでの正確度は54.4%

  • 一般的なスキル:MMLU得点は85.52

現在、メイドゥンはモデルの重み、技術報告書、および対応する推論エンジンオープンソースしています。SGLang-FluentLLM。開発者はLongCat APIオープンプラットフォームから試用を申請でき、毎日5,000万トークンの無料枠があります。