最近、月の暗面は画期的な技術「Kimi Linear」——「混合線形アテンションアーキテクチャ」を発表しました。このアーキテクチャは、短距離・長距離処理や強化学習(RL)などのさまざまなシナリオにおいて、従来の全アテンション手法よりも優れているとされています。そのコアのイノベーションは、「Kimi Delta Attention」(KDA)で、これはGated DeltaNetの最適化アップグレードであり、限られた状態を持つRNN(再帰的ニューラルネットワーク)の記憶使用効率を向上させるより効率的なゲートメカニズムを導入しています。

Kimi Linearのアーキテクチャはユニークで、3つのKimi Delta Attentionと1つのグローバルなMLA(マルチレイヤー・パーセプトロン)から構成されています。Gated DeltaNetの改良により、KDAは細粒度のゲートメカニズムを通じて、限られた状態を持つRNNのメモリ使用量を大幅に圧縮することができます。この設計は、情報処理速度の向上だけでなく、メモリ消費量の削減にも寄与し、より実用性のあるものとなっています。

image.png

公式データによると、1Mトークンの処理場面において、Kimi LinearのKVキャッシュ使用量は75%減少し、デコードスループットは最大6倍向上しています。また、TPOT(トレーニング速度)に関しては、従来のMLAと比較して6.3倍の高速化が実現されました。これらの顕著な性能向上は、Kimi LinearがさまざまなAIタスクにおける広範な適用可能性を示しており、特に速度とメモリ要求が高い応用シーンにおいて注目されています。

image.png

人工知能の急速な発展とともに、モデルの処理能力と効率の向上は業界における重要な課題となっています。月の暗面のKimi Linearアーキテクチャは、そのイノベーティブな設計により、この分野に新たなソリューションをもたらし、今後業界の新しい基準となる可能性があります。

Kimi Linearの技術報告書の詳細情報は、公式のGitHubページから取得できます。興味のある読者は、技術的な詳細を深く理解することができます。

技術報告書:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf