AI解数学题只靠最后一个token

研究核心发现 - 大语言模型在心算任务中，几乎所有实际数学计算都集中在序列最后一个token上完成，而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图，通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开，表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作：在初始层抑制token针对特定输入的计算，在少数层限制跨token信息传递，最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中，只需前14层做任务通用计算，然后通过2层信息传输让最后token获取全局信息，剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度，其中A+B+C任务忠实度达0.995，A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键，移除近60个头部后模型仍能保持约95%准确率，表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图，但等待期更短、信息传输层更长，且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率，但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务，即涉及两个或三个操作数的算术问题，可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性，可服务于算术任务之外的更广泛应用，为理解大语言模型中的算术推理机制做出贡献[37]