最近、月の暗面は、新しい混合線形アテンションアーキテクチャ「Kimi Linear」をリリースしました。このアーキテクチャは、短距離・長距離情報の処理や強化学習(RL)など、さまざまなシナリオにおいて従来の全アテンション手法よりも性能が優れているとされています。そのコア技術であるKimi Delta Attention(KDA)は、Gated DeltaNetの最適化であり、特に限られた状態を持つRNNのメモリ使用をより効率的に管理するための新しいゲートメカニズムが導入されています。

image.png

Kimi Linearは、3つのKimi Delta Attentionと1つのグローバルMLAで構成されています。この構造は、細粒度のゲートによって限られた状態を持つRNNのメモリを圧縮し、モデルが情報を処理する際により効率的になります。公式によると、1Mトークンのデータシナリオでは、Kimi LinearのKVキャッシュの使用量が75%削減され、デコードスループットは最大6倍向上し、TPOTは従来のMLAに比べて6.3倍高速化されています。

この新しいアーキテクチャは、さまざまなAIアプリケーションシーンに強いサポートを提供します。情報が密集している自然言語処理タスクや、動的な環境での強化学習においても、Kimi Linearには顕著な利点があります。AI技術がさらに発展していく中で、この効率的なアテンションメカニズムは、今後のスマートアプリケーションに新たな突破をもたらすかもしれません。

より詳細な技術情報は、Kimi Linearの技術報告書で確認できます。https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf。

重要なポイント:  

🌟 Kimi Linearは、情報処理性能を最適化した新しい混合線形アテンションアーキテクチャです。  

🚀 1Mトークンのシナリオでは、KVキャッシュの使用量が75%減少し、デコードスループットが6倍向上します。  

🔍 Kimi Delta Attentionは、RNNのメモリ管理を細粒度のゲートによって最適化するこのアーキテクチャの核心技術です。