一項由以色列理工學院主導的最新研究表明,大型語言模型(LLM)可能“深藏不露”,掌握的知識比實際表現出來的更多。研究人員發現,LLM 的內部表徵編碼了關於其輸出正確性的信息,即使它們最終生成了錯誤的答案,也能在內部識別出正確答案。

該研究團隊重點分析了 LLM 在長文本生成中的錯誤,這更貼近其在現實世界中的應用場景。他們構建了一個錯誤檢測數據集,通過比較模型生成的答案與真實答案來判斷其正確性,並以此爲基礎,研究 LLM 內部表徵中編碼真實性信號的位置。

image.png

研究發現,與以往研究關注最後一個生成標記或平均值不同,真實性信息集中在“精確答案標記”中,即那些修改後會改變答案正確性的標記。以問題“康涅狄格州的首府是什麼?”爲例,精確答案標記就是“哈特福德”。

爲了識別精確答案標記,研究人員使用了一種外部算法,該算法能夠從模型的長篇答案中提取精確答案。實驗結果顯示,所有被評估的 LLM 都能夠從自身的輸出中提取精確答案。

通過對不同模型和數據集進行實驗,研究人員發現,使用精確答案標記可以顯著提高錯誤檢測方法的性能,尤其是在探測模型內部表徵時。

更令人驚訝的是,即使當模型在生成過程中沒有表現出對正確答案的偏好時,探測器依然能夠有效地識別出正確答案。 這表明 LLM 的內部編碼和外部行爲之間存在顯著的脫節,即使模型內部知道正確答案,它在實際生成文本時仍然可能給出錯誤的答案。

這項研究對 LLM 的錯誤分析和改進具有重要意義。 通過深入理解 LLM 內部表徵中真實性信號的編碼方式,可以開發更有效的錯誤檢測和校正方法,從而提高 LLM 的可靠性和實用性。

論文地址:https://arxiv.org/pdf/2410.02707