中国の大規模モデルチーム Moonshot AI は、今日 Hugging Face で技術報告書 『Kimi Linear Tech Report』(報告書リンク)を正式に公開し、新しいアーキテクチャ Kimi Linear を発表しました。これは完全注意機構(Full Attention)を直接置き換えることが可能なハイブリッド線形アーキテクチャであり、効率性と優れた性能を備え、AIエージェント時代における注意機構の新たな出発点と見なされています。

報告書によると、Kimi Linear は速度、メモリ効率および長文処理能力の3つの面で大きな進歩を遂げました。このモデルでは、KVキャッシュ使用量を最大75%削減100万(1M)の文脈長において、解読スループットが最大6倍向上
Kimi Linear の核心的なイノベーションは以下の3つの技術です:
- Delta Attention: ハードウェアに効率的な線形注意機構で、ゲート付き Delta ルールによって構造を最適化し、パフォーマンスと消費電力のバランスを実現; 
- Linear Architecture: 伝統的な完全注意機構をすべての指標で上回る最初のハイブリッド線形アーキテクチャで、速度とモデル表現能力を両立; 
- オープンエコシステムと実証検証: Moonshot は、オープンソースの KDA コア、vLLM インテグレーションのサポート、モデルチェックポイントを提供し、大規模で公平な比較実験を実施し、Kimi Linear の安定性と拡張性を検証しました。 
Moonshot AI は、Kimi Linear はアーキテクチャの革新だけでなく、AIエージェント時代のために設計された基盤的仕組みであると述べています。線形注意技術が成熟することで、長文の推論、スマートアシスタント、マルチモーダル生成などの応用シーンで次世代の標準となることが期待されています。
URL:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
