隨着企業越來越多地應用大型語言模型(LLMs),如何提升模型的知識準確性並減少幻覺現象,成爲了一項重要挑戰。Meta AI 的研究人員在一篇新論文中提出了 “可擴展記憶層”,或許能夠爲這一問題提供解決方案。

Meta,元宇宙,Facebook

可擴展記憶層的核心思想是在不增加推理時計算資源的情況下,向 LLMs 中添加更多參數,從而提升其學習能力。這種架構適用於需要儲存大量事實知識但又希望保持推理速度的應用場景。

傳統的語言模型使用 “密集層” 來編碼大量信息。在密集層中,所有參數在推理時幾乎都是同時激活的,能夠學習複雜的函數,但這需要額外的計算和能量資源。而對於簡單的事實知識,使用具有關聯記憶架構的簡單層會更加高效和易於理解,這就是記憶層的作用。記憶層通過簡單的稀疏激活和鍵值查找機制來編碼和檢索知識。儘管稀疏層在內存佔用上高於密集層,但其同時僅使用少量參數,從而提高了計算效率。

雖然記憶層已經存在多年,但在現代深度學習架構中卻鮮有應用,主要是因爲它們並未針對當前硬件加速器進行優化。當前前沿的 LLMs 通常採用某種形式的 “專家混合” 架構,這與記憶層有相似之處。專家混合模型由多個專門化的小型專家組件構成,通過路由機制在推理時激活特定的專家。

爲了克服記憶層在計算上輕便但內存佔用大的挑戰,Meta 的研究人員提出了若干改進措施,使其能夠在大規模應用中實現可行性。他們爲記憶層配置了並行化,能夠在多個 GPU 上存儲數百萬個鍵值對,同時不會減慢模型的運行速度。此外,他們還爲處理高內存帶寬操作開發了特定的 CUDA 內核,並實現了參數共享機制,允許多個記憶層共享一組內存參數。

通過對 Llama 模型的修改,將一個或多個密集層替換爲共享記憶層,研究人員對記憶增強模型進行了測試。他們的研究發現,記憶模型在多個任務中表現優異,特別是在需要事實知識的任務上,性能明顯超過密集基線,甚至能與使用2到4倍計算資源的模型競爭。

論文入口:https://arxiv.org/abs/2412.09764

劃重點:

🧠 可擴展記憶層能夠在不增加計算資源的情況下提升語言模型的學習能力。

💡 研究發現,記憶層在多個任務上表現優異,尤其是在需要事實知識的情況下。

🚀 Meta 的研究人員呼籲將記憶層整合進下一代 AI 架構中,以減少遺忘和幻覺現象。