Workflow
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好
机器之心·2025-10-21 11:43

文章核心观点 - 研究表明,大语言模型长期接触低质量的网络内容会导致认知能力持续下降,类似人类的“脑腐”现象[4][6][7] - 即使后续用高质量数据重新训练,模型的认知损伤也无法完全修复,出现永久性变化[6][7][29] - 数据质量是LLM能力衰退的因果驱动因素,需要重新定义训练阶段的数据筛选为安全问题[17] 研究动机 - “脑腐”概念描述低质量内容对人类认知的钝化作用,同样适用于从互联网信息源学习的LLM[9] - 研究LLM的“脑腐”将数据策展重新定义为人工智能的“认知卫生”,指导训练语料库的获取、过滤和维护[10] - 与以往关注训练数据质量的工作不同,该研究提供关于数据质量的新视角,关注社交媒体内容的琐碎性和易消费性[10] 实验方法 - 提出“LLM脑腐病假设”,通过受控实验验证持续接触垃圾网络文本会导致认知能力持续下降[12] - 采用两个正交操作化方法构建垃圾数据集:M1(参与度-帖子受欢迎程度和简短程度)和M2(语义质量-文本耸人听闻或肤浅程度)[13] - 实验使用真实的Twitter/X语料库,保持一致的token规模和训练操作,包括后续相同的指令微调[15] 研究结果 - 垃圾数据预训练导致推理能力下降23%,长期记忆下降30%[14] - 人格测试显示自恋和心理病态水平上升[14] - 在4个LLM上观察到推理、长时记忆理解、安全性及“黑暗特质”方面显著下降(Hedges' g > 0.3)[15] - 垃圾数据比例从0%上升到100%时,ARC-Challenge得分从74.9下降到57.2,RULER-CWE得分从84.4下降到52.3[16] 关键发现 - 思维跳跃是主要病变:模型频繁截断或跳过推理链,解释大部分错误增长[23] - 部分但不完全恢复:扩大指令调优和干净数据预训练能改善认知衰退,但无法恢复到基准水平[23][29] - 受欢迎度是更好指示器:推文受欢迎程度比长度更能反映大脑腐化效应[23] - M1干预对推理和长上下文能力的影响比M2干预更显著和渐进[25]