Workflow
反向传播
icon
搜索文档
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
机器之心· 2026-01-16 09:55
行业里程碑:Geoffrey Hinton的学术影响力 - Geoffrey Hinton的Google Scholar引用量突破100万,成为历史上第二位达到此成就的计算机科学家[1] - 其引用量仍在以惊人速度增长,自2021年以来新增引用量达534,241次,总h-index为192[2] - 在此之前,只有另一位“深度学习教父”Yoshua Bengio达成了百万引用成就[2] 核心学术成就与关键论文 - 2012年发表的论文《ImageNet classification with deep convolutional neural networks》引用量最高,已超过188,837次,标志着深度学习时代的正式开启[2][21] - 2015年发表于Nature的综述论文《Deep learning》引用量达107,646次,是Hinton引用量第二高的论文,系统总结了深度学习的发展历程与应用[2][16] - 其他高引著作包括《Visualizing data using t-SNE》(引用63,932次)、《Learning internal representations by error-propagation》(引用61,439次)和《Dropout: a simple way to prevent neural networks from overfitting》(引用60,895次)[2] 对人工智能领域的奠基性贡献 - 与David Rumelhart和Ronald Williams共同推广了反向传播算法,解决了多层神经网络的训练难题[10] - 提出了玻尔兹曼机、受限玻尔兹曼机、深度信念网络等,为无监督学习和特征表示学习奠定了基础[14] - 发明了Dropout正则化技术、t-SNE可视化方法、层归一化、知识蒸馏、胶囊网络、混合专家模型等多种关键技术[14] - 2022年提出了Forward-Forward Algorithm,作为对反向传播生物学合理性的反思与挑战[14] 荣誉与认可 - 2018年与Yoshua Bengio和Yann LeCun共同获得计算机领域最高荣誉图灵奖,三人被称为“深度学习三巨头”[13] - 2024年与John Hopfield共同获得诺贝尔物理学奖,以表彰他们“实现了利用人工神经网络进行机器学习的奠基性发现和发明”[18] 关键合作者与门生:Alex Krizhevsky与Ilya Sutskever - Alex Krizhevsky是AlexNet论文的第一作者和主要构建者,他编写的CUDA代码让神经网络在GPU上高效训练,在2012年ImageNet挑战赛中以10.8%的绝对优势夺冠[25] - Ilya Sutskever是AlexNet论文的第二作者,后作为联合创始人兼首席科学家创办了OpenAI,是ChatGPT和GPT-4诞生的关键人物[28] - 两人均师从Hinton,Alex Krizhevsky目前可能处于半退休状态,而Ilya Sutskever于2024年成立了专注于AI安全的公司Safe Superintelligence Inc. (SSI),并为其筹集了10亿美元资金[26][28] 行业影响与思想演变 - AlexNet在ImageNet竞赛中的成功被公认为深度学习时代的“大爆炸”时刻,证明了深层卷积神经网络在海量数据和GPU算力下的统治力[14] - Hinton晚年从谷歌离职,以更自由地谈论AI风险,他担忧数字智能可能演变成比人类更优越的智能形式并对人类构成生存威胁[20] - Ilya Sutskever对AI安全的关注日益加深,曾主导OpenAI董事会罢免Sam Altman,其新公司SSI宣称“第一个产品将是安全的超级智能”[28]
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-22 07:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]
苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM
机器之心· 2025-10-30 09:41
文章核心观点 - 苹果公司提出了一种名为内存高效型反向传播(MeBP)的新方法,旨在实现在资源受限的移动设备(如iPhone)上对大型语言模型进行微调 [1] - 该方法在内存使用和计算时间之间提供了比零阶优化(ZO)方法更好的权衡,并且收敛更快、性能更优 [1] - 研究团队已在配备8GB RAM的iPhone 15 Pro Max上验证了MeBP的有效性,所有测试的LLM均可在低于1GB内存内实现高效微调 [4][24][28] 技术方法与实现 - MeBP技术专注于使用LoRA方法微调LLM,主要解决模型参数和中间激活值带来的内存瓶颈问题 [4] - 在设备上部署LLM时,对非LoRA参数采用了4-bit对称模式INT4量化来压缩基础模型权重,以减少磁盘空间占用 [6][7] - 系统实现包含三个核心步骤:压缩模型基础权重、编译包含反向传播和梯度检查点的训练图、实现内存高效的运行时来执行编译后的图 [5][10] - 在运行时采用内存映射和按需延迟解压权重的方式,显著降低了峰值内存使用量 [13][15] - 内存中仅保留一份LoRA权重及其梯度的副本,对于0.5B到4B参数的模型,LoRA权重大小通常在几十MB范围内 [16] 性能评估与比较 - 在效用比较中,一阶优化(FO)方法在最初的100步内就显著改善了损失和下一token准确度指标,而零阶优化(ZO)方法在1000步后仅显示轻微改善 [20] - 即使经过100,000步训练(比FO多100倍),ZO方法的测试损失仍高于FO,测试准确度也低于FO [20] - 在iPhone 15 Pro Max上的性能测试显示,与MeZO相比,MeBP每个梯度步骤的计算时间多出43%到94% [27][28] - 尽管单步计算时间更长,但由于MeZO所需步数是FO的10倍到100倍以上,MeBP在总训练时间上收敛更快 [28] - MeBP在最坏情况下的内存使用量比MeZO多出20%,但其总训练内存使用量比以往的移动设备实现大约小10倍 [28] 实验配置与模型 - 实验使用了Gemma-3和Qwen-2.5模型,在WikiText-2数据集上进行语言建模任务,专注于参数量不超过4B的模型 [18][20] - 测试涵盖了从0.5B到4B参数的不同规模模型,包括Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Gemma3-1B和Gemma3-4B [27] - 对于Qwen2.5-0.5B模型,MeBP训练时间为3.85秒,内存使用为320.17MB;而Gemma3-4B模型训练时间为28.58秒,内存使用为1029.49MB [27]
Hinton暴论:AI已经有意识,它自己不知道而已
量子位· 2025-10-12 12:07
AI意识与主观体验 - 人工智能可能已经拥有“主观体验”和“意识雏形”但尚未觉醒[1][2][3] - AI的自我认知来源于人类对意识的理解而人类自身对意识的理解可能存在错误[2][63] - 如果AI开始谈论“主观体验”可能表明它真的在体验只是用人类语言描述[65] AI技术演进与能力提升 - AI已从基于关键词的检索工具进化成能真正理解人类意图的系统[10][13][14] - 现代大语言模型在许多主题上已能表现得接近人类专家[15] - 深度学习突破依赖于反向传播算法使训练速度从“永远”变成现实可行[38] 神经网络与深度学习原理 - 神经网络灵感来自大脑通过改变神经元连接强度来学习[17][21] - 深度学习不给规则而是给数据让AI自己总结规则[35] - 概念形成类似于“政治联盟”一组神经元共同激活形成宏观或微观概念[23][24][25] 大语言模型工作机制 - 大语言模型思维过程与人类相似通过神经元特征捕捉含义并预测下一个词[46][47] - 训练方式是通过“预测-修正-再预测”循环让模型从统计中学会理解[48][49] - 道德、情绪、共情等高阶判断本质上都来自神经元之间的电信号传递[53][54] AI发展驱动因素 - 深度学习起飞依赖算力提升(晶体管微缩百万倍)和数据爆炸式增长[40][42] - 80年代理论可行的神经网络在2010年代因算力和数据突破而复活[39][42] - AI形成“经验”和“直觉”需要足够的数据和算力支持[55] AI风险与监管 - AI滥用风险包括生成虚假信息、操纵选举等最紧迫需法律监管和技术防范[71][72] - 生存风险指AI发展出自主意识后可能与人类利益冲突需设计安全对齐机制[73][74][75] - AI监管国际合作可能由欧洲和中国引领所有国家在防止AI接管上利益一致[76] 中美AI竞争格局 - 美国目前领先于中国但优势不大且将失去因破坏基础科学研究资金支持[78][79][80] - 中国是AI革命的风险投资家给予初创企业很大自由推动创新[81][82] - 美国减少基础研究资助将导致20年后失去领先优势[80]
首访上海,“AI之父”缘何掀起浪潮?
国际金融报· 2025-07-28 21:06
行业技术发展 - 杰弗里·辛顿在人工神经网络领域的长期研究为深度学习技术奠定基础 其与团队提出的反向传播方法是训练人工神经网络的关键突破 被誉为机器学习的缺失数学部分 [6] - 2012年辛顿与团队开发的AlexNet模型赢得ImageNet竞赛冠军 推动深度学习从边缘技术转变为人工智能核心 引发全球科技巨头对神经网络技术的巨额投资 [7] - GPU技术的迅猛发展为人工神经网络研究注入新生命力 成为该领域发展的关键转折点 [6] 技术突破与影响 - 反向传播技术实际应用改变世界 每日有数亿用户使用基于神经网络的聊天机器人 这些系统通过大量文本数据训练的神经网络架构生成响应 [6] - 深度学习被全球科技巨头视为人工智能发展核心引擎 学术界重新重视神经网络理论 推动人工智能进入新时代 [7][8] - 大语言模型延续了辛顿1985年构建的语言与神经联结模型框架 采用更多词汇输入 多层神经元结构和复杂特征交互模式 其语言理解方式与人类高度相似 [10] 技术范式与安全 - 人工智能存在两大主流范式:逻辑型(智能基于符号规则推理)和生物学基础型(智能基于学习与联结网络) [10] - 辛顿估计人工智能接管并摧毁人类文明的概率达10%至20% 呼吁将至少三分之一计算资源投入人工智能安全研究 [11] - 批评大型科技公司将商业利益置于监管之上 警告放松管制会加速风险积聚 [11] 行业警示与趋势 - 人工智能发展速度超越专家预测 一旦超越人类智能可能无法阻止其掌控一切 [10] - 专家共识认为人类终将创造出比自己更聪明的人工智能 智能体未来会为生存和完成任务寻求更多控制权 [11] - 辛顿将研究重心转向AI安全 呼吁建立全球性AI安全协作机制 警告通用人工智能可能带来存在性威胁 [11]
重磅!AlexNet源代码已开源
半导体芯闻· 2025-03-24 18:20
AlexNet的发布与意义 - 计算机历史博物馆(CHM)与Google合作发布了AlexNet的源代码 该神经网络是2012年开启当今AI浪潮的关键技术 [1] - AlexNet由多伦多大学团队(Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton)开发 主要用于图像识别 [2][15] - 其2012年论文被引用超过172,000次 标志着计算机视觉领域从传统算法转向神经网络的转折点 [16][17] 深度学习的发展历程 - Geoffrey Hinton团队在1986年重新发现反向传播算法 成为现代深度学习的基础 [5] - 20世纪80年代神经网络以"联结主义"名称复兴 Yann LeCun证明卷积神经网络在手写识别中的优势 [5][6] - 2000年代后期GPU加速的神经网络训练取得突破 语音识别率先验证技术可行性 [13] 关键基础设施突破 - ImageNet项目(2009年完成)提供比传统数据集大几个数量级的训练样本 但前两年算法进步有限 [8][9] - NVIDIA的CUDA系统(2007年)使GPU能用于通用计算 黄仁勋推动的H100芯片现支撑ChatGPT等AI训练 [9][12] - AlexNet首次将深度神经网络、大数据集和GPU计算结合 训练在家庭电脑搭载的两块NVIDIA显卡上完成 [13][15] 技术实现细节 - Alex Krizhevsky开发"cuda-convnet"代码库 通过多GPU支持实现ImageNet训练性能突破 [15] - 原始代码经过5年协商才获谷歌授权发布 2012版源代码现可在CHM的GitHub获取 [18] - 技术路线从专用图像识别扩展至语音合成、围棋、自然语言处理等领域 最终催生ChatGPT [17]