最近,一組來自斯坦福大學、康奈爾大學和西弗吉尼亞大學的計算機科學家與法律學者共同發表了一項引人矚目的研究,分析了幾款開源大型語言模型在文本記憶方面的表現。這項研究着重考察了五種不同的開放權重模型,它們的能力是否能夠重複經典書籍中的內容。這五款模型中,有三款來自 Meta,另外兩款分別由微軟和 EleutherAI 開發。
研究團隊採用了 Books3這一流行的書籍數據庫,作爲訓練這些大模型的素材,值得一提的是,這些書籍中許多依然受到版權保護。研究者們將36本書劃分爲多個重疊的100個標記段落,然後利用前50個標記作爲提示,計算接下來的50個標記與原文相同的概率。如果逐字重複的概率超過50%,那麼這段內容就被標記爲 “已記住”。
令人驚訝的是,Meta 於2024年發佈的 Llama3.170B 模型在回憶《哈利波特》第一部的表現中,竟能記住42% 的內容。而相比之下,Meta 在2023年發佈的 Llama165B 模型僅能回憶起4.4% 的內容。這一顯著提升引發了學術界的廣泛關注。研究人員還發現,相較於冷門書籍,Llama3.170B 在熱門書籍如《霍比特人》和喬治・奧威爾的《1984》中的記憶能力更爲突出,記憶量遠高於其他模型。
這一研究成果不僅展示了大型語言模型在文本記憶方面的顯著進步,也引發了人們對未來 AI 技術在處理和理解文本內容能力的期待。可以說,隨着技術的發展,人工智能正在不斷接近人類的認知水平。