Workflow
预测编码理论
icon
搜索文档
当大脑独处时,它在思考什么?
虎嗅· 2025-10-08 09:33
学习方式的核心差异 - 有监督学习依赖外部明确指引,如通过带标签数据训练预测模型或外部奖惩引导神经连接强化 [2] - 无监督学习源于系统内部自主探索与规律发现,如从无标签数据挖掘规律或大脑自主提取环境特征 [2] - 核心差异在于是否依赖外部明确指引,传统观点认为学习需要奖励信号或明确反馈,但婴儿大脑能力促使该认知被重新审视 [2] 小鼠实验设计与发现 - 实验比较无监督学习组(预先无奖励自由探索视觉纹理)与任务学习组(直接进行奖励训练)小鼠的神经可塑性变化 [3][4] - 使用双光子介观显微镜长期成像并记录九万个神经元活动以追踪神经回路变化 [3] - 无监督学习组小鼠在2周训练后,其视觉关键脑区(内侧高级视觉区HVA)出现与任务组几乎完全一致的神经可塑性变化,表明变化不依赖任务反馈或监督 [4][5] 视觉与空间可塑性机制 - 为区分视觉可塑性(编码视觉特征)和空间可塑性(对刺激空间位置敏感),研究人员引入新的无奖励刺激,其视觉特征相似但空间配置不同 [7] - 实验结果支持视觉可塑性假说,小鼠视觉神经元能忽略纹理空间位置,仅对纹理类别(如树叶vs圆圈)产生响应 [8] - 这种"去空间化"学习规则与人类识别物体的能力一致,表明无监督学习更多受视觉特征相似性影响 [8] 无监督与有监督学习的协同作用 - 大脑学习存在分工:无监督暴露在内侧视觉区构建纯粹刺激表征,任务学习依赖前侧脑区的监督信号关联刺激与奖励 [6] - 行为研究显示,经过10天无奖励预训练的小鼠,在后续5天奖励任务训练的第一天就展现出明显区分能力,而未预训练小鼠处于随机反应状态 [10] - 学习加速效果依赖特定视觉特征,表明无监督预训练形成了"表征预优化",使后续监督学习只需细微调整 [10] 科学意义与跨学科启示 - 发现打破了"没有奖励就没有学习"的传统强化学习理论框架,证明视觉皮层特征提取可在无奖励情况下完成 [14] - 大脑无监督学习机制与人工智能领域的BERT模型通过无监督预训练取得的革命性进展形成呼应 [14] - 神经科学发现为AI无监督学习提供生物合理性验证,并启发设计更高效特征提取网络,如模仿内侧HVA的去空间化编码规则 [14] 潜在应用方向 - 在医学领域,基于无监督学习原理可设计特定视觉刺激方案,帮助存在视觉特征提取困难的患者(如自闭症)更好地理解复杂视觉信号 [15] - 在计算机领域,模仿"无监督预习+监督微调"模式可降低AI对标注数据的依赖,例如让自动驾驶系统先在虚拟环境中无监督学习,再通过少量标注数据优化决策 [15] - 这种双轨制学习模式可能是在复杂多变环境中快速适应的核心密码 [12] 有待解决的科学谜题 - 无监督学习背后的具体神经环路机制尚不清楚,包括哪些突触可塑性规则主导以及是否依赖特定神经调质(如乙酰胆碱、多巴胺) [16][17] - 研究发现主要聚焦小鼠部分脑区,其视觉优先编码规则在灵长类或高阶认知(如抽象概念学习、工作记忆)中的普适性有待验证 [17] - 无监督学习能力是否存在年龄相关的关键期或随年龄增长而衰退,以及如何延缓这种衰退,是未来重要研究方向 [18]
下一句会是什么?我们是否高估了预测编码理论?
钛媒体APP· 2025-07-16 11:50
预测编码理论 - 预测编码理论认为大脑会不断预测未来事件并与实际感官输入比较,通过调整预测以减少误差 [1] - 该理论为大脑信息加工提供了简洁合理的机制解释,获得广泛认可 [1] - 最早应用于视觉加工领域,高级视觉区域预测低级区域活动,低级区域反馈预测误差 [3] - 预测编码框架可统一解释感知、注意、学习等多种认知功能 [4] 神经网络语言模型(NNLM) - NNLM能根据上文生成下一个单词的概率分布,例如预测"fisherman"比"farmer"概率更高 [6] - 优势在于可利用几乎所有自然语言文本训练,学习广泛统计规律 [6] - 采用transformer结构,通过点积注意力选择性加工输入元素,输出隐藏态作为表征 [9] - 评价指标为困惑度,数值越低表示预测准确性越高 [9] NNLM与大脑活动的关联 - 基于NNLM的编码模型能预测大脑对自然语言的反应,解释方差接近100% [10] - 研究发现模型预测能力与神经/行为数据拟合度呈强相关(r>0.8) [10][13] - 去除简单语境信息后,仍能通过大脑活动预测NNLM词语表征 [11] - 增加未来词语嵌入可提升编码模型表现 [11] 表征普遍性假说 - 研究发现模型编码表现与表征普遍性高度相关(r=0.864) [13] - 模型对跨语言任务(如翻译)的预测能力同样与编码表现强相关(r=0.780) [14] - GPT-2模型在中间层(60-80%深度)达到编码峰值,后期表现下降,与预测编码理论预期不符 [14][16] - 表明模型优异表现可能源于广泛任务适应力而非预测能力 [17] 研究争议与展望 - 现有证据均为相关性数据,无法证实预测编码的因果性 [12] - 需寻找能明确区分预测编码与普遍性假说的独特神经现象 [18] - 发现低级神经环路的预测编码机制将成为直接证据 [18]
大脑在不断预测并修正错误?
虎嗅· 2025-04-29 07:59
文章核心观点 - 大语言模型与大脑语言反应的高度相关性可能源于其强大的特征发现和表征普遍性能力,而非支持“大脑采用类似预测编码机制”这一因果推论 [1][2][5] - 德克萨斯大学奥斯汀分校的研究提出“表征普遍性”作为预测编码理论的替代解释,认为语言模型因捕捉到语言的普遍信息而在多种任务中表现优异,并非因其预测目标与大脑相同 [16][25][26] - 对GPT-2模型的分析显示,其编码能力在模型中间层达到峰值,而在专注于预测的最后一层并未显著提升,此模式与预测编码理论的预期不符 [21][22][23] 预测编码理论 - 预测编码理论由Karl Friston在20世纪90年代提出,认为大脑会不断预测未来事件并与实际感官输入比较,通过调整预测来减少误差 [2] - 该理论为感知、注意、学习、运动控制等多种认知功能提供了统一框架,在语言加工领域认为大脑会预测未来出现的词语和句子 [4] - 预测编码理论得到电生理信号证据和神经网络语言模型能有效解释大脑语言活动的支持 [4] 神经网络语言模型 - 单向神经网络语言模型是一种用于单词预测任务的人工神经网络,能根据上文生成下一个单词的概率分布 [6] - 最先进的NNLM通常采用Transformer架构,通过点积注意力机制有选择地加工输入元素,其输出被称为隐藏态,是对输入的编码表征 [10] - 语言模型微调范式允许模型利用预训练学到的语言特征,在多种语言任务上表现优于从头训练的模型,有助于降低数据标注成本 [8] 神经科学研究中的NNLM - 神经科学家使用基于NNLM的编码模型来预测大脑对自然语言的反应,此类模型比使用非情景化词嵌入的模型表现更好 [10] - Schrimpf等人(2021)的研究表明,最优的NNLM能对几乎100%的可解释方差进行预测,且模型对神经数据的拟合结果与其单词预测准确性强相关 [11] - Goldstein等人(2021)和Caucheteux等人(2021)的研究发现,大脑反应能预测NNLM对未来词语的表征,增加未来词语信息可提升编码模型表现 [13] 不同于预测编码的替代解释 - Antonello和Huth的研究提出“表征普遍性”解释,即语言模型因表征包含能普遍适用于多种语言任务的信息而表现出色,并非因其预测能力 [16][19][20] - 该研究分析97种语言表征,发现编码表现与表征普遍性之间存在高相关(相关系数r=0.864),且对翻译任务的预测能力也与编码表现高相关(r=0.780) [18][19][20] - 对GPT-2模型的分析显示,其编码表现在模型深度60%到80%之间达到峰值,随后在更深的预测层下降,而预测能力在最后一层未较中间层显著提升 [21][22][23]