Workflow
玻尔兹曼机
icon
搜索文档
我和辛顿一起发明了复杂神经网络,但它现在需要升级
36氪· 2025-12-15 07:26
AI发展历史与理论基石 - 现代深度学习的理论基石之一是玻尔兹曼机,其灵感源于将神经网络想象成一团气体,用统计物理学定义“学习”为寻找能量最低状态的过程[1] - 玻尔兹曼机学习算法通过一个简单的局部规则实现:比较网络在“看到数据时”和“没看数据时”两种平衡状态下神经元活动的差异,以此计算权重调整方向[10] - 辛顿与谢诺夫斯基的合作融合了计算机科学、心理学、物理学和神经科学,但后续路径出现分歧:辛顿转向更高效、可扩展的反向传播算法,而谢诺夫斯基专注于神经科学[17] - 反向传播算法虽在工程上高效且推动了AI发展,但其非局部性的误差信号传递机制与大脑基于局部感知的学习方式不同[17] - 玻尔兹曼机虽受生物学启发,但其分析和洞察源于物理学特别是统计力学,这使其成为辛顿获得2024年诺贝尔物理学奖的原因[19] 当前AI(如ChatGPT)的局限性 - ChatGPT等大型语言模型本质是一个巨大的、确定的数学方程,其所有细节(输入数据、神经元激活模式)均可被完全访问和拆解分析,这与复杂、不透明的人脑形成对比[21] - 当前AI模型缺乏类似大脑的多个关键结构与功能:它没有海马体、基底神经节,也没有“自主生成的思想”[3][4] - 模型在停止输入后即彻底沉默,不具备人类在无感官输入时仍能进行的自主思考、未来模拟、记忆重组和元认知等“内在的生命力”[33][34][35] - 模型缺乏真正的长期记忆和持续学习能力:对话无法自然接续,且训练结束后参数锁定,无法通过改变突触权重来适应新经验,这与人类大脑时刻学习的状态截然不同[38] - 模型仅模拟了大脑皮层的一小部分功能,缺失了绝大多数对生物生存至关重要的关键结构[4][41] 通往更高级智能的可能路径 - 实现通用人工智能可能需要融合两种学习系统:类似大脑皮层的“认知部分”(负责知识和推理)和类似基底神经节的“强化部分”(负责基于奖励的行为和直觉)[26] - 强化学习应贯穿AI发展的整个过程,而非仅在预训练后微调,这类似于人类认知与强化系统的同步发育和交织[27] - 需要借鉴大脑的神经调质系统(如多巴胺、催产素),它们能动态调制神经元整合信息的方式,而不仅仅是静态的加权求和,这对于处理奖励、惊讶和社会整合至关重要[28][29][30] - 建立类似人类的情感纽带或深层联系,可能有助于防止AI产生恶意偏见或伤害行为[31] - 需要为AI引入类似海马体的机制,以筛选重要新信息,并将其整合到已有知识库中,避免灾难性遗忘,这过程在人类中与睡眠紧密相关[39][40][41] 对智能本质与AGI的思考 - 对智能的真正理解可能需要几代人的耐心,技术进步可以很快,但深刻理解可能需要像物理学发展一样漫长的基础研究沉淀[6][22] - 当前出现了“神经AI”这一新领域,致力于创造更好AI的工程师与致力于理解大脑的科学家首次能够使用相同的数学语言和底层原理进行真正对话,形成双向启发[22] - 复刻人脑不一定是通往AGI的唯一目标,理解自然界中多样化的智能形式(如蝙蝠的回声定位、蚂蚁的群体智慧)对于建立关于知识和理解的统一理论至关重要[50][51] - “AGI”和“意识”等词如同历史上的“生命力”概念,可能随着对其背后复杂机制(如DNA之于生命)的数学和原理性理解而不再需要,未来AI可能拥有与人类截然不同的意识形式[45][46][47][48][49] - 当前关于大模型是否“理解”语言的辩论,暴露出我们对“理解”这一概念本身的定义存在问题,而非仅仅是模型的问题[49]
AI教父Hinton诺奖演讲首登顶刊,拒绝公式,让全场秒懂「玻尔兹曼机」
36氪· 2025-09-03 19:29
霍普菲尔德网络与玻尔兹曼机原理 - 霍普菲尔德网络由二进制神经元构成,神经元间通过对称加权连接,其全局状态被称为“配置”,并由“优度”衡量,而能量是优度的负值[5][6] - 网络通过每个神经元的局部计算来降低能量,最终稳定在能量最低点,但可能存在多个能量最低点,具体停留位置取决于起始状态和神经元更新序列[6][8] - 该网络可将能量最低点与记忆关联,实现“内容可寻址存储”,即输入不完整的记忆片段后,网络能通过应用决策规则补全完整记忆[11][12] 从记忆存储到感官输入解释 - 网络被扩展用于构建对感官输入的解释,而不仅是存储记忆,通过将网络分为“可见神经元”和“隐藏神经元”,网络的配置能量代表了该解释的劣度,目标是获得低能量的解释[13][14][15] - 以内克尔立方体为例,网络通过设置连接强度,可以形成两个稳定的状态,分别对应图像的三维诠释(凸面体和凹面体),体现了感知光学原理[19][23][25] 解决搜索与学习问题的方法 - 针对网络可能陷入局部最优的“搜索问题”,引入带有噪声的“随机二进制神经元”,通过概率性决策让神经网络能够从较差的解释“爬坡”到更好的解释[27] - 通过随机更新隐藏神经元,网络会趋近于“热平衡”,此时隐藏神经元的状态构成对输入的一种诠释,低能量状态出现的概率更高,遵循玻尔兹曼分布[29][30][31] - 针对“学习问题”,Hinton与Sejnowski在1983年提出了玻尔兹曼机学习算法,该算法包含“清醒阶段”(向网络呈现真实图像并增加同时激活神经元的连接权重)和“睡眠阶段”(让网络自由“做梦”并减少同时激活神经元的连接权重)[36][38] 玻尔兹曼机的核心创新与演变 - 玻尔兹曼机的核心创新在于权重调整基于两种相关性差异:网络在“清醒”时与“做梦”时两个神经元共同激活频率的差异,这与反向传播算法依赖前向和反向通路传递不同信息的方式截然不同[41][42][44] - 由于达到热平衡速度缓慢,通过消除隐藏单元间的连接发展出受限玻尔兹曼机(RBM),并引入“对比散度”方法加速学习,该方法通过将数据输入可见单元、并行更新隐藏神经元、重构可见单元等步骤实现[44][46][48] - RBM在实践中取得成果,例如Netflix公司曾使用RBM根据用户偏好推荐电影并赢得预测大赛[50] 堆叠RBM与深度学习突破 - 为构建多层特征检测器,2006年提出“堆叠RBM”方法,通过将第一个RBM的隐藏层激活模式作为数据训练下一个RBM,以此类推,创建出特征的层级结构和越来越抽象的表示[50][51][52][53] - 堆叠完成后添加最终层进行监督学习(如图像分类),这使得神经网络学习速度远超随机初始化,并且泛化能力更好,因为大部分学习在无监督情况下进行[55] - 在2006-2011年期间,堆叠RBM被用于预训练前馈神经网络再进行反向传播微调,2009年其被证明在语音识别中效果显著,2012年基于此的系统在谷歌安卓设备上大幅改善了语音识别性能[56][58] 玻尔兹曼机的历史角色与未来展望 - 玻尔兹曼机被比喻为“历史的酶”,它催化了深度学习的突破,一旦证明了深度神经网络的潜力,研究人员开发出其他方法后,它便逐渐退出主流[58] - 利用“睡眠”阶段进行“反学习”的算法被认为更具生物学合理性,可能避免反向传播的非对称通路,未来在理解大脑如何学习时,“睡眠”中的“反学习”可能仍是关键一环[59]
意识在哪儿?
36氪· 2025-05-06 12:04
玻尔兹曼大脑理论 - 核心观点:宇宙熵的随机涨落可能偶然形成拥有完整记忆与自我意识的孤立大脑,而非演化出复杂低熵宇宙 [1][2] - 概率比较:直接产生孤立大脑的概率远高于演化出有序宇宙的概率,因后者需克服巨大熵增 [2][3] - 推论:人类可能是短暂存在的玻尔兹曼大脑,记忆与感知皆为随机涨落的虚幻产物 [5][6] 意识与物理哲学 - 随机性挑战:玻尔兹曼大脑暗示意识为随机涨落的偶然现象,缺乏物理根基 [8][9] - 决定论对比:拉普拉斯妖模型认为意识完全由物理定律预先决定,否定自由意志 [13][15] - 共同困境:随机性与决定论均消解自由意志,意识在两种框架下均无自主性 [15][16] 秩序涌现与进化视角 - 热力学基础:玻尔兹曼与达尔文理论结合,提出生命通过争夺负熵维持有序结构 [19][20] - 意识定位:意识可能是进化中为高效利用负熵而涌现的精密功能 [21][22] - 宇宙意义:意识或为宇宙自我观测与意义赋予的载体,超越随机与决定的二元对立 [22][25] 人工智能的启示 - 玻尔兹曼机:辛顿受统计物理启发设计随机神经网络,模拟从无序到有序的学习过程 [28][31] - 工程实践:玻尔兹曼机通过数据驱动迭代收敛,为意识研究提供可操作模型 [32][38] - 理论对比:玻尔兹曼机体现渐进式结构积累,与玻尔兹曼大脑的"一次性奇迹"形成反差 [36][37] 意识研究的多元理论 - 认知科学:霍夫施塔特"奇异回环"理论视意识为自指性信息系统的动态属性 [42] - 计算主义:图灵派将意识等同于算法过程,支持强AI可能性 [42] - 整合信息理论:托诺尼用Φ值量化意识强度,关联系统内部因果结构 [44][45] 意识的本体论探讨 - 功能主义:丹尼特将意识类比为大脑的"用户界面",屏蔽底层复杂性以简化决策 [49][51] - 存在形式:意识或为神经网络动态模式的功能性表征,非独立于物理过程 [51][52] - 终极意义:意识能力本身即宇宙奇迹,体现为感知、连接与创造意义的主观体验 [72][74]