DeepSeek 開源周首日正式開源其最新技術成果FlashMLA,這是一款專爲英偉達Hopper架構GPU打造的高效多層注意力(Multi-Layer Attention)解碼內核。該技術特別針對變長序列場景進行優化,可顯著提升大模型推理性能。

QQ20250224-101526.png

FlashMLA的核心技術特性包括對BF16精度的全面支持,以及採用塊大小爲64的頁式鍵值緩存(Paged KV Cache)系統,實現更精確的內存管理。在性能表現方面,基於CUDA12.6平臺,FlashMLA在H800SXM5GPU上創下了顯著成績:在內存受限場景下達到3000GB/s的處理速度,在計算受限場景下則實現580TFLOPS的算力水平。

該項目已經過生產環境驗證,展現出優異的穩定性。開發團隊表示,FlashMLA的設計借鑑了FlashAttention2&3和cutlass等項目的優秀經驗,並在此基礎上實現了創新突破。

開發者可通過簡單的安裝命令快速部署FlashMLA:只需執行"python setup.py install"即可完成安裝,隨後可運行測試腳本"python tests/test_flash_mla.py"體驗其性能。

開源地址:https://github.com/deepseek-ai/FlashMLA