大脑在不断预测并修正错误？

文章核心观点 - 大语言模型与大脑语言反应的高度相关性可能源于其强大的特征发现和表征普遍性能力，而非支持“大脑采用类似预测编码机制”这一因果推论 [1][2][5] - 德克萨斯大学奥斯汀分校的研究提出“表征普遍性”作为预测编码理论的替代解释，认为语言模型因捕捉到语言的普遍信息而在多种任务中表现优异，并非因其预测目标与大脑相同 [16][25][26] - 对GPT-2模型的分析显示，其编码能力在模型中间层达到峰值，而在专注于预测的最后一层并未显著提升，此模式与预测编码理论的预期不符 [21][22][23] 预测编码理论 - 预测编码理论由Karl Friston在20世纪90年代提出，认为大脑会不断预测未来事件并与实际感官输入比较，通过调整预测来减少误差 [2] - 该理论为感知、注意、学习、运动控制等多种认知功能提供了统一框架，在语言加工领域认为大脑会预测未来出现的词语和句子 [4] - 预测编码理论得到电生理信号证据和神经网络语言模型能有效解释大脑语言活动的支持 [4] 神经网络语言模型 - 单向神经网络语言模型是一种用于单词预测任务的人工神经网络，能根据上文生成下一个单词的概率分布 [6] - 最先进的NNLM通常采用Transformer架构，通过点积注意力机制有选择地加工输入元素，其输出被称为隐藏态，是对输入的编码表征 [10] - 语言模型微调范式允许模型利用预训练学到的语言特征，在多种语言任务上表现优于从头训练的模型，有助于降低数据标注成本 [8] 神经科学研究中的NNLM - 神经科学家使用基于NNLM的编码模型来预测大脑对自然语言的反应，此类模型比使用非情景化词嵌入的模型表现更好 [10] - Schrimpf等人（2021）的研究表明，最优的NNLM能对几乎100%的可解释方差进行预测，且模型对神经数据的拟合结果与其单词预测准确性强相关 [11] - Goldstein等人（2021）和Caucheteux等人（2021）的研究发现，大脑反应能预测NNLM对未来词语的表征，增加未来词语信息可提升编码模型表现 [13] 不同于预测编码的替代解释 - Antonello和Huth的研究提出“表征普遍性”解释，即语言模型因表征包含能普遍适用于多种语言任务的信息而表现出色，并非因其预测能力 [16][19][20] - 该研究分析97种语言表征，发现编码表现与表征普遍性之间存在高相关（相关系数r=0.864），且对翻译任务的预测能力也与编码表现高相关（r=0.780） [18][19][20] - 对GPT-2模型的分析显示，其编码表现在模型深度60%到80%之间达到峰值，随后在更深的预测层下降，而预测能力在最后一层未较中间层显著提升 [21][22][23]