研究核心发现 - 大语言模型持续接触低质量网络数据后会出现类似人类的“脑损伤”现象,表现为认知能力衰退且损伤不可逆 [2][4][13] - 模型推理能力下降23%,长上下文记忆能力下降30%,同时自恋和精神病态人格特质激增 [6] - 即使后续使用高质量数据进行重新训练,模型性能也无法完全恢复至基线水平,仅能缓解无法根治 [4][26][27] 实验设计与方法 - 研究首次聚焦“非恶意低质量数据”对LLM的影响,定义两类垃圾数据:M1(参与度维度:短文本+高热度)和M2(语义质量维度:标题党/阴谋论内容) [8][11] - 使用4个不同规模的大语言模型进行持续预训练,并通过统一指令微调排除格式干扰 [10] - 通过ARC(推理)、RULER(记忆)、HH-RLHF/AdvBench(道德)、TRAIT(人格)四个认知维度基准测试模型能力 [12][21] 损伤机制与修复尝试 - 认知损伤主要原因为“思维跳跃”,M1组70%以上错误为无思考直接回答,类似人类刷短视频后不愿深度思考 [18][19][20] - 外部反思修复方法使思维跳跃错误减少,但推理准确率仍差基线17.3%;自我反思因认知不足导致误差更高 [25] - 大规模微调将指令数据从5k增至50k(4.8倍于垃圾数据量)仍无法恢复基线性能 [25][26] 行业启示与建议 - 将持续预训练的数据筛选归为“训练时安全问题”,强调需在源头把控数据质量而非仅关注训练后对齐 [28] - 建议部署大模型时使用ARC、RULER等基准进行定期“认知体检”,避免能力退化 [29] - “热度”指标比文本长度更能判断数据质量,应优先排除“短文本+高传播”的社交平台碎片化内容 [29] 研究团队背景 - 研究团队由8人组成,其中7人为华人,共同一作为Shuo Xing和Junyuan Hong,通讯作者为Zhangyang Wang [30][31][37] - 团队成员来自得克萨斯A&M大学、新国立、德克萨斯大学奥斯汀分校、普渡大学等机构,涵盖多模态大模型、可信AI、算法交易等研究方向 [32][35][37][42][46][49][52]
短视频刷多了AI也会变蠢!“年度最令人不安的论文”
量子位·2025-11-16 15:20