Workflow
模型并行
icon
搜索文档
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-22 07:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]