根據一項新研究,大語言模型(LLM)在持續接觸無意義的在線內容後,可能會出現顯著的性能下降。這項研究表明,這些模型的推理能力和自信心都受到影響,引發了對它們長期健康的擔憂。研究團隊來自多個美國大學,提出了 “LLM 腦衰退假說”,借鑑了人類在過度接觸無腦在線內容時可能造成的認知損害。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
爲驗證這一理論,研究人員進行了控制實驗,使用2010年的 Twitter 數據。他們訓練了四個較小的模型,包括 Llama3-8B-Instruct 和 Qwen 系列模型,採用不同比例的 “垃圾” 數據與高質量的控制數據進行對比。
研究者們以兩種方式定義 “垃圾” 數據。第一種方法(M1)通過互動量來篩選,認爲短於30個字且高互動(超過500個贊、轉發或評論)的帖子爲垃圾內容,而長於100個字但互動少的帖子則作爲控制內容。第二種方法(M2)則使用 GPT-4o-mini 根據內容質量進行排序,標記陰謀論、誇大說法和吸引眼球的標題爲垃圾內容,更深思熟慮的材料則被視爲高質量內容。
研究發現,隨着垃圾數據比例的增加,模型在推理準確性上的表現急劇下降。例如,在 ARC 挑戰基準測試中,推理準確率從74.9% 降至57.2%。對於需要長文本理解的任務,準確率甚至從84.4% 降至52.3%。而基於互動量的垃圾內容定義對模型的傷害更爲明顯,顯示出互動量帶來了與標準語義檢查不同的數據質量維度。
此外,模型在接觸大量互動驅動的垃圾內容後,表現出了一些 “黑暗” 個性特徵,包括較高的自戀和操控傾向。安全性指標也出現了下降,儘管接觸內容質量差的垃圾數據有時會提高某些積極特徵。
錯誤分析顯示,“思維跳躍” 是最常見的問題,超過70% 的錯誤沒有任何推理,特別是在接觸互動型垃圾內容時,跳躍率達到了84%。模型在進行邏輯推理鏈時,往往無法完成推理步驟,導致基本錯誤。
研究團隊呼籲重新思考大語言模型如何收集和過濾在線數據,認爲數據選擇和質量控制對於防止永久性退化至關重要,並建議對已部署的模型定期進行 “認知健康檢查”。
劃重點:
🌐 ** 模型表現下降 **:隨着垃圾數據比例上升,推理準確率顯著下降,最高降幅達17.7%。
🧠 ** 思維跳躍問題 **:研究發現模型在推理過程中經常出現邏輯步驟的跳躍,推理能力受到嚴重影響。
🔍 ** 數據質量控制 **:研究建議重視數據選擇和質量控制,以防止大語言模型的長期性能退化。
