Workflow
信息高峰
icon
搜索文档
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
机器之心· 2025-07-03 12:14
大模型推理机制研究 - 研究团队首次利用信息论方法揭示大模型内部推理动态,发现"思考词"出现时模型隐空间中关于正确答案的信息量会突然飙升数倍,形成真正的"信息高峰"与"决策拐点"[3] - 通过测量隐空间表征与最终答案的互信息(MI),证明推理过程中积累的互信息越高,模型回答正确的概率就越高,并给出错误概率的上下界数学表达式[5][6] - 在非推理模型上实验发现互信息波动更小、峰值现象更弱,表明推理能力强化训练会催生互信息峰值现象[7][9] 思考词汇的关键作用 - 研究发现互信息峰值时刻的隐空间表征解码后最常对应"思考词",包括反思型("Hmm")、逻辑型("Therefore")和行动型("Let")等三类[10][11][13] - 干预实验显示抑制思考词汇生成会显著降低模型在GSM8K、MATH等数学推理数据集的性能,而随机屏蔽普通词汇影响甚微,证实思考词汇对推理的关键作用[15][16] 性能提升方法 - 提出表征循环(RR)方法:在检测到思考词汇时将其表征重新输入模型进行额外计算,在AIME24上使DeepSeek-R1-Distill-LLaMA-8B准确率提升20%[18][20] - 开发基于思考词汇的测试时扩展(TTTS):强制模型以思考词汇开头继续生成,在token预算增加时持续提升性能,在6144预算时超越原始模型[21][22] 研究意义 - 首次清晰观测到大模型推理过程中的互信息峰值现象,为理解模型"黑箱"推理提供创新视角[24] - 发现思考词汇是信息高峰的语言化身,对模型推理性能具有关键影响[25] - 提出两种无需训练即可提升模型推理性能的方法,为后续研究提供新思路[26][27]