AI解数学题只靠最后一个token
量子位·2025-09-14 13:05
henry 发自 凹非寺 量子位 | 公众号 QbitAI 大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的 最后一个token 上完成,而不是分散在所有token中。 这意味着,相较于在Transformer和多层感知机(MLP)中常见的 全局信息访问 ——即每个token在预测时都能查询并利用整个上文信息 ——在诸如心算这样的特定任务中,全局访问其实并不是必需的。 这是怎么一回事? 心算只要最后一个token?! 总的来说,研究人员采用了 上下文感知平均消融(Context-Aware Mean Ablation, CAMA) 和 基于注意力的窥视(attention-based peeking) 技术对 Llama-3-8B 等Transformer架构的模型进行了一系列的消融实验。 这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的 "最少计算量" 。 在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称 ...