在剛剛結束的 ACL2025頒獎典禮上,由 DeepSeek 的梁文鋒博士作爲通訊作者,與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前,投稿數量幾乎翻倍,達到了8360篇,競爭之激烈可見一斑。
該論文提出了一種名爲原生稀疏注意力(NSA)的新機制,能在算法與硬件的協同優化下,將長文本的處理速度提升至驚人的11倍。而更爲振奮的是,這項技術的性能不僅提升,反而超越了傳統的全注意力模型。通過這項技術,研究團隊成功將上下文長度擴展到了驚人的100萬 tokens,這爲未來的前沿模型奠定了基礎。
NSA 機制的核心在於通過動態分層的稀疏策略,結合三條並行的注意力分支,有效捕捉文本中的重要信息。首先是 “壓縮注意力”,負責提煉全局信息;其次是 “選擇性注意力”,聚焦於重要的詞塊;最後是 “滑動注意力”,確保局部上下文的完整性。這種設計不僅讓模型更爲靈活,同時在現代 GPU 硬件上進行了深度優化,實現了原生可訓練模式。
在測試中,NSA 在處理64k 長度的文本時,解碼階段速度提升了11.6倍,前向傳播和反向傳播速度分別提升了9倍和6倍。更重要的是,NSA 在各種基準測試中表現優異,27B 參數的模型在9個評測指標中有7個超越了全注意力基線,特別是在多跳問答和代碼理解等複雜任務中展現了明顯的優勢。
這項研究爲長文本處理開闢了新的可能性,真正實現了速度與精度的雙贏,證明了 NSA 機制在 AI 領域的廣泛應用前景。
論文地址:https://arxiv.org/pdf/2502.11089