对比散度
搜索文档
AI教父Hinton诺奖演讲首登顶刊,拒绝公式,让全场秒懂「玻尔兹曼机」
36氪· 2025-09-03 19:29
霍普菲尔德网络与玻尔兹曼机原理 - 霍普菲尔德网络由二进制神经元构成,神经元间通过对称加权连接,其全局状态被称为“配置”,并由“优度”衡量,而能量是优度的负值[5][6] - 网络通过每个神经元的局部计算来降低能量,最终稳定在能量最低点,但可能存在多个能量最低点,具体停留位置取决于起始状态和神经元更新序列[6][8] - 该网络可将能量最低点与记忆关联,实现“内容可寻址存储”,即输入不完整的记忆片段后,网络能通过应用决策规则补全完整记忆[11][12] 从记忆存储到感官输入解释 - 网络被扩展用于构建对感官输入的解释,而不仅是存储记忆,通过将网络分为“可见神经元”和“隐藏神经元”,网络的配置能量代表了该解释的劣度,目标是获得低能量的解释[13][14][15] - 以内克尔立方体为例,网络通过设置连接强度,可以形成两个稳定的状态,分别对应图像的三维诠释(凸面体和凹面体),体现了感知光学原理[19][23][25] 解决搜索与学习问题的方法 - 针对网络可能陷入局部最优的“搜索问题”,引入带有噪声的“随机二进制神经元”,通过概率性决策让神经网络能够从较差的解释“爬坡”到更好的解释[27] - 通过随机更新隐藏神经元,网络会趋近于“热平衡”,此时隐藏神经元的状态构成对输入的一种诠释,低能量状态出现的概率更高,遵循玻尔兹曼分布[29][30][31] - 针对“学习问题”,Hinton与Sejnowski在1983年提出了玻尔兹曼机学习算法,该算法包含“清醒阶段”(向网络呈现真实图像并增加同时激活神经元的连接权重)和“睡眠阶段”(让网络自由“做梦”并减少同时激活神经元的连接权重)[36][38] 玻尔兹曼机的核心创新与演变 - 玻尔兹曼机的核心创新在于权重调整基于两种相关性差异:网络在“清醒”时与“做梦”时两个神经元共同激活频率的差异,这与反向传播算法依赖前向和反向通路传递不同信息的方式截然不同[41][42][44] - 由于达到热平衡速度缓慢,通过消除隐藏单元间的连接发展出受限玻尔兹曼机(RBM),并引入“对比散度”方法加速学习,该方法通过将数据输入可见单元、并行更新隐藏神经元、重构可见单元等步骤实现[44][46][48] - RBM在实践中取得成果,例如Netflix公司曾使用RBM根据用户偏好推荐电影并赢得预测大赛[50] 堆叠RBM与深度学习突破 - 为构建多层特征检测器,2006年提出“堆叠RBM”方法,通过将第一个RBM的隐藏层激活模式作为数据训练下一个RBM,以此类推,创建出特征的层级结构和越来越抽象的表示[50][51][52][53] - 堆叠完成后添加最终层进行监督学习(如图像分类),这使得神经网络学习速度远超随机初始化,并且泛化能力更好,因为大部分学习在无监督情况下进行[55] - 在2006-2011年期间,堆叠RBM被用于预训练前馈神经网络再进行反向传播微调,2009年其被证明在语音识别中效果显著,2012年基于此的系统在谷歌安卓设备上大幅改善了语音识别性能[56][58] 玻尔兹曼机的历史角色与未来展望 - 玻尔兹曼机被比喻为“历史的酶”,它催化了深度学习的突破,一旦证明了深度神经网络的潜力,研究人员开发出其他方法后,它便逐渐退出主流[58] - 利用“睡眠”阶段进行“反学习”的算法被认为更具生物学合理性,可能避免反向传播的非对称通路,未来在理解大脑如何学习时,“睡眠”中的“反学习”可能仍是关键一环[59]