従来のMoE(Mix of Experts)アーキテクチャは、エキスパート数を増やすことでモデルの能力を向上させますが、限界効果逓減や高コストな通信オーバーヘッドに悩まされてきました。今日、メイドゥンのLongCatチームは新しいモデルLongCat-Flash-Liteを発表しました。このモデルは「埋め込み拡張(Embedding Expansion)」という新たなパラダイムを採用し、性能のボトルネックを突破しました。

主要な進展:埋め込み拡張がエキスパート拡張を上回る
LongCatチームの研究によると、特定の条件下では、埋め込み層を拡張することがエキスパート数を単純に増やすことよりも優れたパレート前線を達成できることが分かっています。これにより、LongCat-Flash-Liteは685億の総パラメータを持ちながら、N-gram埋め込み層を採用することで、1回の推論で29億〜45億のパラメータのみを活性化します。そのうち300億以上のパラメータが効率的に埋め込み層に割り当てられ、N-gramによって局所的な意味を捉え、例えば「プログラミングコマンド」などの細分化されたシナリオを正確に理解することができ、理解精度を大幅に向上させています。

垂直的最適化:アーキテクチャからシステムまでの全工程の進化
理論上の疎性の利点を実際のパフォーマンスに変えるために、メイドゥンはシステムレベルで3つの最適化を実施しました:
パラメータのスマート配分:埋め込み層のパラメータ割合は46%で、O(1)の検索複雑さにより、パラメータ拡大に伴う計算量の線形増加を回避しています。
専用キャッシュとカーネル統合:KVキャッシュに似たN-gramキャッシュ機構を設計し、CUDAカーネル(AllReduce + RMSNormの統合など)をカスタマイズすることで、I/O遅延を大幅に低減しました。
推測デコード協調:3段階のリスクを取った推論によりバッチサイズを拡大し、通常の埋め込み層のプロトタイプモデルと組み合わせて、さらに遅延を短縮しました。
典型的な負荷下(入力4K、出力1K)において、このモデルのAPIは500〜700トークン/sの高速生成速度を提供し、最大256Kのコンテキストをサポートしています。
パフォーマンスの成果:エージェントとコードでリード
多数の権威あるベンチマークテストで、LongCat-Flash-Liteは階層を超えた競争力を示しています:
エージェントタスク:$\tau^2$-Benchにおける通信、小売、航空の3つのシーンで最高点を獲得しました。
コード能力:SWE-Benchでの正確度は54.4%
一般的なスキル:MMLU得点は85.52
現在、メイドゥンはモデルの重み、技術報告書、および対応する推論エンジンオープンソースしています。
