正文

DeepSeek下一代技術獲ACL2025最佳論文獎，長文本處理效率提升11倍！

aibase

發布於AI新閒資訊

時間 :Jul 31, 2025

閱讀 :1分鐘

在剛剛結束的 ACL2025頒獎典禮上，由 DeepSeek 的梁文鋒博士作爲通訊作者，與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前，投稿數量幾乎翻倍，達到了8360篇，競爭之激烈可見一斑。

該論文提出了一種名爲原生稀疏注意力（NSA）的新機制，能在算法與硬件的協同優化下，將長文本的處理速度提升至驚人的11倍。而更爲振奮的是，這項技術的性能不僅提升，反而超越了傳統的全注意力模型。通過這項技術，研究團隊成功將上下文長度擴展到了驚人的100萬 tokens，這爲未來的前沿模型奠定了基礎。

NSA 機制的核心在於通過動態分層的稀疏策略，結合三條並行的注意力分支，有效捕捉文本中的重要信息。首先是 “壓縮注意力”，負責提煉全局信息;其次是 “選擇性注意力”，聚焦於重要的詞塊;最後是 “滑動注意力”，確保局部上下文的完整性。這種設計不僅讓模型更爲靈活，同時在現代 GPU 硬件上進行了深度優化，實現了原生可訓練模式。

在測試中，NSA 在處理64k 長度的文本時，解碼階段速度提升了11.6倍，前向傳播和反向傳播速度分別提升了9倍和6倍。更重要的是，NSA 在各種基準測試中表現優異，27B 參數的模型在9個評測指標中有7個超越了全注意力基線，特別是在多跳問答和代碼理解等複雜任務中展現了明顯的優勢。

這項研究爲長文本處理開闢了新的可能性，真正實現了速度與精度的雙贏，證明了 NSA 機制在 AI 領域的廣泛應用前景。

論文地址:https://arxiv.org/pdf/2502.11089

相關推薦

OpenAI 解僱奧特曼後曾與 Anthropic 探討合併事宜

馬斯克起訴奧特曼案新進展：法庭文件披露，兩年前奧特曼短暫卸任OpenAI CEO後，該公司曾與競爭對手Anthropic討論合併事宜。這一內幕被視爲雙方法律糾紛的關鍵證據，科技界權力鬥爭持續升級。

Anthropic 推出基於 MCP 的新代碼執行模式，提升 AI Agent 效率

Anthropic推出基於MCP協議的"代碼執行模式"，通過優化AI Agent調用外部工具的方式，解決了傳統方法在處理海量工具時出現的性能瓶頸問題。該創新避免了將所有工具定義和中間結果直接載入模型上下文導致的效率下降，顯著提升了AI Agent在多工具協作場景中的運行效能。

軟銀與 OpenAI 重磅合資本月成立新公司

軟銀與OpenAI本月將合資成立新公司，深化AI領域合作，共同投入資金與技術資源，推動人工智能技術的研發與商業化應用。

美團“全能貓”橫空出世！LongCat-Flash-Omni多模態大模型開源即登頂，實時交互快到離譜

美團開源多模態大模型LongCat-Flash-Omni實現技術突破，在多項基準測試中超越閉源競品，達到業界領先水平。該模型支持文本、語音、圖像、視頻的實時融合處理，具備近乎零延遲的交互能力，將本地化多模態AI應用推向新高度。

谷歌Gemini平臺即將推出Nano Banana2，圖像生成技術再升級

谷歌即將在未來幾周發佈AI圖像生成模型Nano Banana2（代號GEMPIX2），其官網公告顯示該模型由DeepMind團隊開發，旨在提升圖像創作效率和精準度，加速谷歌在生成式AI領域的創新進程。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIBase