在人工智能迅猛發展的今天,大語言模型(LLM)展現出了超凡的能力,但如何科學評估它們的 “心智” 特徵,比如價值觀、性格和社交智能,依舊是一個亟待解決的難題。近期,北京大學的宋國傑教授團隊發佈了一篇全面的綜述論文,系統梳理了大語言模型心理測量學的研究進展,爲 AI 的評估提供了新視角。

這篇論文名爲《大語言模型心理測量學:評估、驗證與增強的系統綜述》,長達63頁,引用了500篇相關文獻。隨着 LLM 能力的快速迭代,傳統的評估方法已顯不足。論文指出,當前評估面臨多重挑戰,包括 LLM 的心智特徵超出傳統評測範圍、模型迭代快使靜態基準失效、評估結果容易受微小變化影響等。爲此,團隊提出了將心理測量學引入 AI 評估的新思路。

image.png

心理測量學長期致力於量化複雜心理特質,通過科學設計的測試爲教育、醫療和商業決策提供支持。研究者們發現,將其方法論應用於 LLM 的評估,將有助於深入理解和提升 AI 的心智能力。這一方法革新爲 AI 評估開啓了全新的視角,從而推動了 “LLM 心理測量學” 的交叉領域發展。

論文中提出了三大創新方向:一是採用 “構念導向” 的評估方法,深入挖掘影響模型表現的潛在變量;二是引入心理測量學的嚴謹方法,提升測試的科學性與可解釋性;三是利用項目反應理論,動態校準測試項目難度,使得不同 AI 系統之間的比較更加科學和公平。

此外,研究還探討了 LLM 表現出的類人心理構念,包括人格特質、能力構念等,強調了這些特質對模型行爲的深遠影響。通過結構化和非結構化的測試形式,團隊爲 LLM 的 “心智” 能力評估奠定了方法論基礎,爲未來 AI 的發展提供了有力的理論支持。

論文地址:https://arxiv.org/pdf/2505.08245