DeepSeekオープンソースウィーク初日に最新の技術成果FlashMLAを正式にオープンソース化しました。これはNVIDIA Hopperアーキテクチャ向けに特別に設計された高効率のマルチレイヤーアテンション(Multi-Layer Attention)デコードカーネルです。この技術は特に可変長シーケンスシナリオに最適化されており、大規模モデルの推論性能を大幅に向上させることができます。FlashMLAの核心技術特性にはBF16精度の全面サポートと、ブロックサイズ64のページングキー・バリューキャッシュ(Paged KV)が含まれています。