神经网络语言模型(NNLM)
搜索文档
下一句会是什么?我们是否高估了预测编码理论?
钛媒体APP· 2025-07-16 11:50
预测编码理论 - 预测编码理论认为大脑会不断预测未来事件并与实际感官输入比较,通过调整预测以减少误差 [1] - 该理论为大脑信息加工提供了简洁合理的机制解释,获得广泛认可 [1] - 最早应用于视觉加工领域,高级视觉区域预测低级区域活动,低级区域反馈预测误差 [3] - 预测编码框架可统一解释感知、注意、学习等多种认知功能 [4] 神经网络语言模型(NNLM) - NNLM能根据上文生成下一个单词的概率分布,例如预测"fisherman"比"farmer"概率更高 [6] - 优势在于可利用几乎所有自然语言文本训练,学习广泛统计规律 [6] - 采用transformer结构,通过点积注意力选择性加工输入元素,输出隐藏态作为表征 [9] - 评价指标为困惑度,数值越低表示预测准确性越高 [9] NNLM与大脑活动的关联 - 基于NNLM的编码模型能预测大脑对自然语言的反应,解释方差接近100% [10] - 研究发现模型预测能力与神经/行为数据拟合度呈强相关(r>0.8) [10][13] - 去除简单语境信息后,仍能通过大脑活动预测NNLM词语表征 [11] - 增加未来词语嵌入可提升编码模型表现 [11] 表征普遍性假说 - 研究发现模型编码表现与表征普遍性高度相关(r=0.864) [13] - 模型对跨语言任务(如翻译)的预测能力同样与编码表现强相关(r=0.780) [14] - GPT-2模型在中间层(60-80%深度)达到编码峰值,后期表现下降,与预测编码理论预期不符 [14][16] - 表明模型优异表现可能源于广泛任务适应力而非预测能力 [17] 研究争议与展望 - 现有证据均为相关性数据,无法证实预测编码的因果性 [12] - 需寻找能明确区分预测编码与普遍性假说的独特神经现象 [18] - 发现低级神经环路的预测编码机制将成为直接证据 [18]
大脑在不断预测并修正错误?
虎嗅· 2025-04-29 07:59
文章核心观点 - 大语言模型与大脑语言反应的高度相关性可能源于其强大的特征发现和表征普遍性能力,而非支持“大脑采用类似预测编码机制”这一因果推论 [1][2][5] - 德克萨斯大学奥斯汀分校的研究提出“表征普遍性”作为预测编码理论的替代解释,认为语言模型因捕捉到语言的普遍信息而在多种任务中表现优异,并非因其预测目标与大脑相同 [16][25][26] - 对GPT-2模型的分析显示,其编码能力在模型中间层达到峰值,而在专注于预测的最后一层并未显著提升,此模式与预测编码理论的预期不符 [21][22][23] 预测编码理论 - 预测编码理论由Karl Friston在20世纪90年代提出,认为大脑会不断预测未来事件并与实际感官输入比较,通过调整预测来减少误差 [2] - 该理论为感知、注意、学习、运动控制等多种认知功能提供了统一框架,在语言加工领域认为大脑会预测未来出现的词语和句子 [4] - 预测编码理论得到电生理信号证据和神经网络语言模型能有效解释大脑语言活动的支持 [4] 神经网络语言模型 - 单向神经网络语言模型是一种用于单词预测任务的人工神经网络,能根据上文生成下一个单词的概率分布 [6] - 最先进的NNLM通常采用Transformer架构,通过点积注意力机制有选择地加工输入元素,其输出被称为隐藏态,是对输入的编码表征 [10] - 语言模型微调范式允许模型利用预训练学到的语言特征,在多种语言任务上表现优于从头训练的模型,有助于降低数据标注成本 [8] 神经科学研究中的NNLM - 神经科学家使用基于NNLM的编码模型来预测大脑对自然语言的反应,此类模型比使用非情景化词嵌入的模型表现更好 [10] - Schrimpf等人(2021)的研究表明,最优的NNLM能对几乎100%的可解释方差进行预测,且模型对神经数据的拟合结果与其单词预测准确性强相关 [11] - Goldstein等人(2021)和Caucheteux等人(2021)的研究发现,大脑反应能预测NNLM对未来词语的表征,增加未来词语信息可提升编码模型表现 [13] 不同于预测编码的替代解释 - Antonello和Huth的研究提出“表征普遍性”解释,即语言模型因表征包含能普遍适用于多种语言任务的信息而表现出色,并非因其预测能力 [16][19][20] - 该研究分析97种语言表征,发现编码表现与表征普遍性之间存在高相关(相关系数r=0.864),且对翻译任务的预测能力也与编码表现高相关(r=0.780) [18][19][20] - 对GPT-2模型的分析显示,其编码表现在模型深度60%到80%之间达到峰值,随后在更深的预测层下降,而预测能力在最后一层未较中间层显著提升 [21][22][23]