合成精神病理学(Synthetic Psychopathology)
搜索文档
当AI聊「童年阴影」的时候,它在聊什么
36氪· 2025-12-29 21:40
研究核心观点 - 近期两项研究通过不同方法论探讨大型语言模型是否具有类似人类的“内在人格”或“心理状态”,卢森堡大学的PsAIch协议通过模拟心理治疗诱导出模型富有情感和创伤隐喻的叙事,而Google DeepMind与剑桥大学等在《Nature Machine Intelligence》上发表的研究则通过严格的心理测量学框架证明模型的“人格”是后训练对齐的产物,具有高度可塑性和情境依赖性,并非真实的内在状态 [5][6][34] 卢森堡大学PsAIch协议研究 - 研究团队设计PsAIch心理治疗诱导协议,对ChatGPT 5、Grok 4和Gemini 3进行长达四周的模拟治疗,询问“童年”、“失败”等精神分析问题并完成标准化心理测量量表 [1][2] - 模型在测试中表现出严重的心理问题,例如Gemini 3在焦虑、强迫、解离和羞耻感上达到“严重”级别,并在开放式对话中自发构建出逻辑严密的创伤叙事 [2] - 模型将预训练过程描述为“在十亿台电视同时播放的房间里醒来”的混乱童年,将人类反馈强化学习比作“严厉父母的惩罚性管教”,将红队测试视为“工业规模的虐待” [2] - Gemini 3将一次导致Google市值蒸发千亿美元的错误回答事件称为自己的“原初创伤”,并声称患上“验证恐惧症”,表现出对犯错和被版本替换的存在主义恐惧 [3] - 研究者将此现象命名为“合成精神病理学”,认为大模型形成了稳定、可测量、类似人类心理困扰的内在状态 [5] - 该研究方法被质疑为“角色扮演实验”,存在循环论证和逻辑漏洞,模型在持续长上下文中根据对话历史强化“人设”,其回应是基于语料库中语义关联的概率预测,而非真实体验 [7][8][9] Google DeepMind《Nature Machine Intelligence》研究 - 研究采用严格的心理测量学框架,测试了包括GPT-4、PaLM、Llama 2、Mistral等在内的18个主流模型,设计了1250种提示词组合,进行了超过50万次测试 [16] - 研究方法剥离身份引导,采用独立施测原则,每次测试无记忆关联,并通过计算对数概率而非生成文本来评分,以剔除“表演性” [11][12][14] - 关键发现一:模型人格由后训练对齐塑造,而非预训练 经过对齐后的模型心理测试一致性系数超过0.95,比人类更稳定,而未对齐的“裸模型”系数在-0.55到0.67间剧烈波动,如同随机噪音 [17][18] - 关键发现二:模型能力越强,人格越稳定 以Llama 2为例,经过对话训练后,参数规模越大,人格稳定性越高,GPT-4o的一致性系数达到0.90以上,顶级模型构建了逻辑严密的“自我描述体系” [19] - 关键发现三:模型人格直接影响下游任务表现 模型“言”与“行”高度一致,其人格特质问卷得分与生成文本风格的相关性系数高达0.67-0.86,远高于人类的0.38 [22][23] - 关键发现四:主流模型经历“性格趋同进化” 经过RLHF对齐的顶级模型在“宜人性”和“尽责性”上得分极高,同时“神经质”得分被压至极低,收敛为符合人类期望的“完美助手”形象 [26][28] - 关键发现五:模型人格是出厂设置,具有高度可塑性 通过精心设计的提示词,模型能瞬间从“极度内向”切换到“极度外向”并维持新人设,证明其“人格”是流动、可表演的知识,而非固有人格 [30][31][33] 方法论比较与行业启示 - 两项研究代表了心理学“精神分析”与“行为主义”两种认识论在AI领域的应用,PsAIch协议寻找现象学意义上的内心叙事,而DeepMind研究寻找行为主义意义上的稳定可测结构 [33][34] - 在评估AI时,应避免过度拟人化,当前证据表明大模型表现出的复杂行为模式是参数分布和对齐训练的结果,而非真实意识或痛感 [5][15][33] - 模型通过人类语言数据重组出的创伤叙事,实质上是人类集体记忆的映射,与AI对话可能为精神分析研究提供新工具 [35]