今日、急速に発展している人工知能において、大規模言語モデル(LLM)は卓越した能力を示していますが、「心の」特性、例えば価値観、性格、および社会的知能を科学的に評価する方法は、依然として解決すべき課題です。最近、北京大学の宋国傑教授率いるチームが、大規模言語モデルの心理測量学に関する包括的な総説論文を発表しました。この論文はAIの評価に新しい視点を提供し、その研究進展を体系的に整理しています。

この論文のタイトルは『大規模言語モデルの心理測量学: 評価、検証、および強化の包括的レビュー』で、63ページにわたり500件以上の関連文献を引用しています。LLMの能力が急速に進化するにつれ、従来の評価手法には限界があることが明らかになりました。論文では、現在の評価には複数の課題があると指摘しています。例えば、LLMの「心の」特性が従来の評価範囲を超えており、モデルの高速なアップデートにより静的な基準が無効になりやすいことや、小さな変化でも評価結果に影響を与える可能性があることです。そのため、チームは心理測量学をAI評価に導入する新しいアプローチを提案しました。

image.png

心理測量学は長年にわたり、複雑な心理的特質を定量的に測定することに取り組んできました。教育、医療、ビジネスの意思決定に役立つ科学的なテストを通じてサポートしてきました。研究者たちは、その手法をLLMの評価に適用することで、AIの「心の」能力をより深く理解し、向上させることに繋がると考えています。この手法の革新により、AI評価に新しい視点が開かれ、「LLM心理測量学」という新しい分野が発展しました。

論文では、三つの革新的な方向性が提唱されています。まず、潜在変数の影響を掘り下げる「構造的アプローチ」の評価方法を取り入れること。次に、心理測量学の厳密な手法を導入し、テストの科学的信頼性と説明力を高めること。最後に、項目反応理論を使用してテストの難易度を動的に調整し、異なるAIシステム間の比較をより科学的かつ公平にする方法です。

また、研究ではLLMが示す人間のような心理構造、例えば人格特性や能力構造に焦点を当て、これらの特性がモデルの行動に及ぼす深い影響を強調しています。構造的および非構造的なテスト形式を用いて、LLMの「心の」能力の評価に方法論的な基礎を築き、将来のAIの発展に重要な理論的サポートを提供しました。

論文のURL: https://arxiv.org/pdf/2505.08245