大型語言模型(LLM)的橫空出世,尤其是ChatGPT等應用的普及,徹底改變了人機交互的方式。 這些模型能夠生成連貫且全面的文本,令人印象深刻。然而,儘管能力強大,LLM卻容易產生“幻覺”,即生成看似真實但實際上是虛構、無意義或與提示不符的內容。
哈佛大學的研究人員對LLM“幻覺”現象進行了深入研究,發現其根源在於LLM的工作原理。 LLM通過對海量文本數據進行機器學習來構建概率模型,並根據詞語共現的概率來預測下一個詞語。 換句話說,LLM並非真正理解語言的含義,而是根據統計概率進行預測。
研究人員將LLM比作“衆包”,認爲LLM實際上是在輸出“網絡共識”。 就像維基百科或Reddit等平臺一樣,LLM從大量文本數據中提取信息,並生成最常見的答案。 由於大多數語言的使用都是爲了描述世界,因此LLM生成的答案通常是準確的。
然而,當LLM遇到模糊、有爭議或缺乏共識的主題時,就會出現“幻覺”。 爲了驗證這一假設,研究人員設計了一系列實驗,測試了不同LLM在處理不同主題時的表現。 實驗結果表明,LLM在處理常見主題時表現良好,但在處理模糊或有爭議的主題時,準確性明顯下降。
這項研究表明,LLM雖然是強大的工具,但其準確性取決於訓練數據的質量和數量。 在使用LLM時,尤其是在處理模糊或有爭議的主題時,需要謹慎對待其輸出結果。 這項研究也爲LLM的未來發展提供了方向,即需要改進LLM處理模糊和有爭議主題的能力,並提高其輸出結果的可解釋性。
論文地址:https://dl.acm.org/doi/pdf/10.1145/3688007