全球 AI 頂會 NeurIPS 2025 今晚公佈獲獎名單,阿里巴巴通義千問團隊憑《Attention Gating Makes Better Foundation Models》拿下最佳論文獎,成爲 4 篇獲獎論文中唯一中國面孔。本屆大會共收稿 2 萬篇,錄取率僅 25%,競爭強度創歷史新高。
論文核心是一把“滑動門”:在標準注意力後加一層可學習的門控,實時決定哪些頭、哪些 token 繼續參與下游計算。實驗顯示,1.7 B 稠密模型與 15 B MoE 模型在 3.5 T tokens 上訓練,**參數只增 1 %,困惑度降 0.2,MMLU 漲 2 分**,Pile 各子域均取得一致提升。團隊解釋,門控相當於給注意力做“安檢”,無效信息被攔在 FFN 之前,計算效率與魯棒性同步提高。
該機制已裝進即將發佈的 Qwen3-Next,阿里同時把代碼與 1.7 B 實驗模型開源至 GitHub,供社區二次驗證。通義千問表示,下一步將把門控思路擴展到多模態與長文本,讓“會自己過濾的注意力”成爲下一代大模型的標準組件。
