先日終了したACL2025の授賞式において、DeepSeekの梁文鋒博士が共同著者として、北京大学などの機関と共同で発表された研究論文が最優秀論文賞を受賞しました。この会議は過去最大規模となり、提出数はほぼ倍増し、8360編に達し、競争の激しさがうかがえます。

この論文では、「ネイティブスパースアテンション(NSA)」という新しいメカニズムが提案されています。アルゴリズムとハードウェアの協調最適化により、長文の処理速度を驚くほど11倍に向上させました。さらに嬉しいことに、この技術の性能は向上するだけでなく、従来の全アテンションモデルを上回っています。この技術により、研究チームは文脈長を驚くべき100万トークンまで拡張することに成功し、これにより今後の最先端モデルの基盤が築かれました。

image.png

NSAメカニズムの核となるのは、動的な階層的なスパース戦略を用い、3つの並列なアテンションブランチを組み合わせて、テキスト中の重要な情報を効果的に抽出することです。まず「圧縮アテンション」は全体情報を要約します。次に「選択的アテンション」は重要な語彙ブロックに焦点を当てます。最後に「スライドアテンション」は局所的な文脈の完全性を確保します。この設計により、モデルはより柔軟になり、現代のGPUハードウェアにも深く最適化され、ネイティブなトレーニングモードを実現しています。

image.png

テストでは、NSAは64k長さのテキストを処理する際、デコード段階の速度が11.6倍に向上し、フォワード伝播とバックワード伝播の速度はそれぞれ9倍と6倍になりました。また、NSAはさまざまなベンチマークテストでも優れた性能を示しており、27Bパラメータのモデルは9つの評価指標のうち7つで全アテンションベースラインを上回り、特にマルチジャンプ質問やコード理解などの複雑なタスクにおいて顕著な優位性を示しました。

image.png

この研究は、長文処理の新たな可能性を開拓し、速度と精度の両立を実現し、NSAメカニズムがAI分野における広範な応用の可能性を証明しました。

論文URL:https://arxiv.org/pdf/2502.11089