Workflow
心理测量学
icon
搜索文档
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
机器之心· 2025-05-27 12:11
背景 随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立 更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。 这些挑战与心理测量学长期关注的核心问题高度契合:如何科学量化和理解复杂、抽象的心理特质(如知识、技能、性格、价值观等)。心理测量学通过将 这些特质转化为可量化的数据,为教育、医疗、商业和治理等领域的决策提供支持。 将心理测量学的理论、工具和原则引入大语言模型的评估,为系统理解和提升 AI「心智」能力提供了新的方法路径,并推动了「LLM 心理测量学(LLM Psychometrics)」这一交叉领域的发展。这一方向有助于更全面、科学地认识和界定人工智能的能力边界。 主要内容 这篇综述论文首次系统梳理了 LLM 心理测量学的研究进展,结构如下图所示。 心理测量和 LLM 基准的差异与评估原则的革新 论文标题:Large Language Model Psychometrics: A Systematic Review of Evalu ...