人工智能公司DeepSeek的研究團隊週一宣佈,他們發佈了一款名爲 V3.2-exp 的新實驗模型,旨在通過創新的“稀疏注意力”機制,大幅降低長上下文操作的推理成本。這一里程碑式的進展在Hugging Face和GitHub上同步發佈,並附有詳細的學術論文。

DeepSeek

該模型的核心在於其獨特的 DeepSeek稀疏注意力機制。這一複雜系統由兩部分組成:首先,一個名爲“閃電索引器”的模塊會對上下文窗口中的特定摘錄進行優先級排序;其次,一個獨立的“細粒度標記選擇系統”會從這些優先摘錄中挑選出關鍵標記,加載到有限的注意力窗口中。這些機制的結合使得稀疏注意力模型能夠以較低的服務器負載高效處理長上下文片段。

在初步測試中,新模型展現出顯著優勢。DeepSeek報告稱,在長上下文操作中,簡單的API調用成本可降低多達一半。儘管仍需更多第三方測試來驗證這些結論,但由於該模型是開放權重並在Hugging Face上免費提供,其真實性能將很快得到行業驗證。

QQ20250930-085622.png

DeepSeek的這項突破是近期一系列旨在解決AI推理成本問題的創新之一。推理成本指的是運行已訓練AI模型的服務器費用,而非訓練費用。與專注於降低訓練成本的R1模型不同,此次新模型着重於提高基礎Transformer架構的運行效率,爲AI應用的普及提供了更經濟的解決方案。

DeepSeek在今年的AI熱潮中備受矚目。其早前發佈的R1模型以低成本強化學習訓練方法引發關注,而此次的稀疏注意力方法雖然可能不會像R1那樣引發轟動,但它爲全球AI供應商提供了寶貴的經驗,有助於共同降低AI服務的運營成本。