Workflow
AlexNet
icon
搜索文档
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
36氪· 2026-01-16 10:25
Geoffrey Hinton的学术成就与里程碑 - Geoffrey Hinton成为历史上第二位Google Scholar引用量突破100万大关的计算机科学家[1] - 其引用量最高的论文是2012年发表的《ImageNet classification with deep convolutional neural networks》,引用量达188,837次[3] - 其2015年发表的《Deep learning》论文引用量达107,646次,是引用量第二高的论文[3] - 引用量第三高的论文是2008年的《Visualizing data using t-SNE》,引用量达63,932次[3] - 在此之前,只有另一位“深度学习教父”Yoshua Bengio达成了百万引用成就[3] Geoffrey Hinton的核心学术贡献 - 与David Rumelhart和Ronald Williams共同发表关于反向传播的论文,解决了多层神经网络训练难题[11] - 提出玻尔兹曼机与受限玻尔兹曼机,为无监督学习和特征表示学习奠定基础[14] - 在2006年提出深度信念网络,通过逐层贪心训练方法有效训练深度神经网络[14] - 提出Dropout正则化技术,通过随机“丢弃”神经元防止过拟合,成为大型神经网络训练标准做法[14] - 提出t-SNE高维数据可视化技术,广泛用于理解深度学习特征表示[15] - 提出分布式表示,强调分布式特征编码在学习系统中的重要性[16] - 提出胶囊网络,通过“胶囊”表示和动态路由机制增强特征层次感知[17] - 提出混合专家模型,通过多个子网络协同工作并由路由器选择性激活,提高模型容量与计算效率[18] - 提出知识蒸馏,将大型复杂模型的知识迁移到小型模型,在保证性能的同时降低计算成本[19] - 提出层归一化技术,改进深度网络训练稳定性和收敛速度[20] - 在深度生成模型与概率图模型领域提出多种创新方法,为后续变分自编码器和生成对抗网络奠定理论基础[21] - 与学生Alex Krizhevsky、Ilya Sutskever共同推出AlexNet,在2012年ImageNet竞赛中以绝对优势夺冠,被公认为深度学习时代的“大爆炸”时刻[21] - 在2022年提出Forward-Forward Algorithm,作为对反向传播生物学合理性的反思与挑战[21] Geoffrey Hinton的荣誉与影响 - 2018年与Yoshua Bengio和Yann LeCun共同获得计算机领域最高荣誉图灵奖,三人被称为“深度学习三巨头”[21] - 2024年与John Hopfield共同获得诺贝尔物理学奖,以表彰他们“实现了利用人工神经网络进行机器学习的奠基性发现和发明”[25] - 其2015年发表于《Nature》的《Deep learning》论文系统总结了深度学习的发展历程、基本原理、关键算法及应用,标志着深度学习从学术探索迈向应用驱动的成熟阶段[23] Geoffrey Hinton的职业生涯与近期动态 - 于2023年5月从工作了十年的谷歌离职,以便能“自由地谈论AI的风险”[27] - 晚年成为AI风险的冷静警示者,担忧数字智能可能演变成比人类更优越的智能形式并对人类构成生存威胁[27] Geoffrey Hinton的杰出学生与合作者 - Alex Krizhevsky是AlexNet的主要构建者,编写了关键的CUDA代码,让神经网络在两块GeForce GPU上高效训练,在2012年ImageNet挑战赛上以10.8%的优势碾压第二名[31] - Alex Krizhevsky在谷歌工作数年后于2017年离职,目前可能已处于半退休状态[33] - Ilya Sutskever在Google Brain参与了序列到序列学习算法和TensorFlow的开发,是AlphaGo论文的众多作者之一[35] - Ilya Sutskever于2015年离开谷歌,作为联合创始人兼首席科学家创办了OpenAI,是ChatGPT和GPT-4诞生的关键人物[35] - 2024年,Ilya Sutskever成立了新公司Safe Superintelligence Inc.,并为其筹集了10亿美元资金[35]
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
机器之心· 2026-01-16 09:55
行业里程碑:Geoffrey Hinton的学术影响力 - Geoffrey Hinton的Google Scholar引用量突破100万,成为历史上第二位达到此成就的计算机科学家[1] - 其引用量仍在以惊人速度增长,自2021年以来新增引用量达534,241次,总h-index为192[2] - 在此之前,只有另一位“深度学习教父”Yoshua Bengio达成了百万引用成就[2] 核心学术成就与关键论文 - 2012年发表的论文《ImageNet classification with deep convolutional neural networks》引用量最高,已超过188,837次,标志着深度学习时代的正式开启[2][21] - 2015年发表于Nature的综述论文《Deep learning》引用量达107,646次,是Hinton引用量第二高的论文,系统总结了深度学习的发展历程与应用[2][16] - 其他高引著作包括《Visualizing data using t-SNE》(引用63,932次)、《Learning internal representations by error-propagation》(引用61,439次)和《Dropout: a simple way to prevent neural networks from overfitting》(引用60,895次)[2] 对人工智能领域的奠基性贡献 - 与David Rumelhart和Ronald Williams共同推广了反向传播算法,解决了多层神经网络的训练难题[10] - 提出了玻尔兹曼机、受限玻尔兹曼机、深度信念网络等,为无监督学习和特征表示学习奠定了基础[14] - 发明了Dropout正则化技术、t-SNE可视化方法、层归一化、知识蒸馏、胶囊网络、混合专家模型等多种关键技术[14] - 2022年提出了Forward-Forward Algorithm,作为对反向传播生物学合理性的反思与挑战[14] 荣誉与认可 - 2018年与Yoshua Bengio和Yann LeCun共同获得计算机领域最高荣誉图灵奖,三人被称为“深度学习三巨头”[13] - 2024年与John Hopfield共同获得诺贝尔物理学奖,以表彰他们“实现了利用人工神经网络进行机器学习的奠基性发现和发明”[18] 关键合作者与门生:Alex Krizhevsky与Ilya Sutskever - Alex Krizhevsky是AlexNet论文的第一作者和主要构建者,他编写的CUDA代码让神经网络在GPU上高效训练,在2012年ImageNet挑战赛中以10.8%的绝对优势夺冠[25] - Ilya Sutskever是AlexNet论文的第二作者,后作为联合创始人兼首席科学家创办了OpenAI,是ChatGPT和GPT-4诞生的关键人物[28] - 两人均师从Hinton,Alex Krizhevsky目前可能处于半退休状态,而Ilya Sutskever于2024年成立了专注于AI安全的公司Safe Superintelligence Inc. (SSI),并为其筹集了10亿美元资金[26][28] 行业影响与思想演变 - AlexNet在ImageNet竞赛中的成功被公认为深度学习时代的“大爆炸”时刻,证明了深层卷积神经网络在海量数据和GPU算力下的统治力[14] - Hinton晚年从谷歌离职,以更自由地谈论AI风险,他担忧数字智能可能演变成比人类更优越的智能形式并对人类构成生存威胁[20] - Ilya Sutskever对AI安全的关注日益加深,曾主导OpenAI董事会罢免Sam Altman,其新公司SSI宣称“第一个产品将是安全的超级智能”[28]
AI教父Geoffrey Hinton,全球第二个百万引用科学家
36氪· 2026-01-16 09:28
学术成就里程碑 - AI领域先驱、图灵奖得主Geoffrey Hinton的论文总被引次数正式突破100万次,成为全球第二位达成此成就的学者[1][3] - 首位达成百万被引的学者是Yoshua Bengio,其被引次数已达到103.6万次[7][10] - 图灵奖三巨头中的另一位Yann LeCun,论文被引次数也达到了44.6万次[14][16] 核心高被引论文分析 - **AlexNet (2012)**: 被引18.9万次,该研究通过深度卷积神经网络在ImageNet竞赛中取得突破性胜利,Top-5错误率仅15.3%,远低于第二名的26.2%,标志着深度学习复兴的开端[18][32][34] - **Deep Learning综述 (2015)**: 被引10.8万次,由Hinton、Bengio和LeCun合著,系统性地阐述了深度学习的原理、架构(如CNN、RNN)和潜力,成为该领域的奠基性文献[20][36][38] - **t-SNE可视化方法 (2008)**: 被引6.4万次,解决了高维数据降维可视化的难题,成为科研和数据分析中的标准工具[21][39][41] - **Dropout正则化技术 (2014)**: 被引约6.1万次,通过随机失活神经元来防止过拟合,成为训练深度神经网络的基础技巧之一[24][46][47] 学术贡献与行业影响 - Hinton的早期研究,包括反向传播、深度信念网络等,为现代深度学习算法奠定了基础,其工作直接支撑了ChatGPT、Gemini等大模型的运行[24][27] - AlexNet的成功证明了“数据+GPU+端到端训练”范式的有效性,推动了计算机视觉从手工特征工程向端到端学习的转变,并促进了GPU加速和大规模数据集在AI研究中的广泛应用[18][34][35] - Hinton因其在人工神经网络方面的基础性贡献,于2018年与Bengio、LeCun共同获得图灵奖,并于2024年与John Hopfield共同获得诺贝尔物理学奖[28][30] 学术背景与坚持 - Hinton出身学术世家,其曾曾祖父乔治·布尔创立了布尔代数[25] - 在神经网络研究被视为“死胡同”的AI寒冬期,Hinton坚持研究,并于1987年加入多伦多大学,建立了神经计算与自适应感知实验室,培养了大量AI人才[27] - 他自2013年起兼任谷歌脑副总裁,推动了深度学习在工业界的落地应用[27]
从洗碗工到“AI教母”,她又预言了下一个十年
36氪· 2026-01-13 15:31
文章核心观点 - 人工智能领域的顶尖科学家李飞飞提出,AI发展的下一个关键方向是“空间智能”,她认为大语言模型受限于语言本身,而真正的智能机器需要理解物理世界的深度、距离、遮挡与重力等空间信息 [1] - 李飞飞创立的World Labs于2025年末发布了首款商用“世界模型”Marble,该公司在2024年成立后融资超过2.3亿美元,估值超过10亿美元 [2] - 李飞飞的职业生涯贯穿了AI从实验室到产业爆发的全过程,其推动建立的ImageNet数据集被视为结束了人工智能寒冬并开启了AI黄金时代的关键,如今她正致力于构建一个新时代的“ImageNet”以推动空间智能发展 [2][6][9][10] 李飞飞的个人背景与职业生涯 - 李飞飞16岁随父母移民美国,家境困顿,曾在餐馆打工时薪2美元,每天只睡4小时学习,最终以SAT 1250分、数学满分的成绩获得普林斯顿大学物理学全额奖学金 [3][4] - 她在加州理工学院攻读博士时,同时研究神经科学和计算科学,专注于让机器学会“看”的视觉研究领域 [5] - 其职业生涯经历了从学界到产业的转换,曾担任斯坦福人工智能实验室(SAIL)主任,并于2017年加入Google Cloud担任AI/ML首席科学家兼副总裁 [9] ImageNet的创立与行业影响 - 在2005-2009年的人工智能寒冬期间,李飞飞坚信数据是AI质变的关键,决心构建一个涵盖“全世界所有物体”的庞大图像数据库,即ImageNet [6] - 项目初期面临巨大困难,手动标注需90年,后借助亚马逊众包服务解决了海量图像标注的效率难题 [8] - 2009年,ImageNet论文亮相,数据库包含5247个类别、320万张标记图片 [8] - 2012年,AlexNet模型在ImageNet挑战赛中以领先第二名41%的优势夺冠,将Top-5错误率从26%降至15%,证明了优质数据预训练的重要性,该时刻被视为AI发展史上的“奇点”之一 [9] - 李飞飞免费开放ImageNet数据库,推动了深度学习闸门的打开,被誉为结束了AI寒冬并拉开了人工智能黄金时代的序幕 [9][10] 对AI发展趋势的判断与空间智能 - 李飞飞指出大语言模型(如ChatGPT)存在局限性,受制于语言本身,而“语言即世界”是一种偷换概念,信息不仅包括语言,还包括空间信息 [1][10] - 她认为AI的下一个十年是“空间智能”,若AI无法理解物体的深度、距离、遮挡与重力,就永远无法真正“具身” [1] - 其判断源于长期的跨学科研究,包括认知神经科学、计算机视觉以及对生物视觉起源的思考 [1][5] - 空间智能被视为实现通用人工智能(AGI)所需的多把钥匙之一,AGI的发展是一个渐进的过程 [12] World Labs与空间智能的研发进展 - 李飞飞于2024年创立World Labs,开始研发空间智能,并于2025年末发布了首款商用“世界模型”Marble [2][11] - 她承认生成三维空间在技术上存在挑战,目前仍处于早期阶段,但笃定未来一到两年内空间智能会爆发 [11] - 该公司的目标是构建一个能够理解并生成三维物理世界信息的模型,类似于为新时代打造一个“ImageNet” [10][11]
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-22 07:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 08:47
现代AI从实验室走向规模化的系统性复盘 - 现代AI的突破是算法、硬件、工程同时成熟后的系统性涌现,而非单点奇迹[1] - 强算法必须与强基础设施结合,才能真正走向规模化[1] 起点突破:硬件让AI从想法变成现实 - **早期算力觉醒**:2012年AlexNet的成功证明了足够算力对深度学习的决定性作用,其参数比别人多十倍,算力也超出好几倍[2][3] - **早期并行计算探索**:Jeff Dean在1990年就尝试用32处理器的超立方体计算机进行数据并行和模型并行训练,尽管当时因只用了10个神经元而失败[3][4] - **推理成本驱动硬件自研**:2013年Jeff Dean计算发现,若1亿人每天使用语音助手3分钟,将使谷歌服务器总量翻倍,这直接推动了TPU项目的启动[5][6][8] - **专用硬件的发展**:2015年第一代TPU专注于推理,其能效比同期CPU和GPU高出30-80倍;2017年TPU v2开始用于大规模训练;如今TPU已进化到第七代,Pathways系统可统一调度数万颗跨数据中心芯片[8] - **硬件生态多元化**:AI基础设施呈现多元化趋势,NVIDIA GPU路线持续演进(如H100、H200、B200),支撑着OpenAI、Meta等公司的大规模训练;同时,定制芯片如Google TPU和AWS Trainium为特定需求深度优化,在能效和成本上具有独特价值[9] 系统成熟:算法、组织、工具的协同推进 - **算法架构的可扩展性**:Transformer架构的突破在于将顺序处理变为并行处理,所有token同时计算,充分利用硬件并行能力。同样的准确率,Transformer使用的计算量比LSTM少10-100倍,使大规模训练从“理论可能”变为“工程可行”[10] - **组织方式的集中化**:在ChatGPT发布前,谷歌内部已有技术可行的聊天机器人,但受搜索业务思维限制及内部资源分散(Brain、Research、DeepMind三个团队各自为战)未能推向市场。ChatGPT上线后,谷歌整合资源成立了Gemini团队,将算力、模型、人才集中到一个目标上[11][12] - **工程工具栈的闭环形成**:JAX让研究员能用数学语言直接写代码;Pathways让数万颗TPU能被一个Python进程调度;蒸馏技术可将千亿参数模型压缩到能在手机上运行。这些工具降低了AI的准入门槛,提升了效率[13] - **三条曲线的交汇**:Transformer让模型能规模化,但需要更大算力支撑;更大算力需要组织资源集中,同时催生了更好的工具;更好的工具提升训练效率,反过来支撑了更大模型的训练。三者形成闭环,缺一不可[14][15] 未来门槛:规模化后需突破的三大挑战 - **能效:规模化的物理极限**:模型升级意味着消耗更多电力、时间和预算。Gemini的训练动用了上万颗TPU芯片。虽然谷歌通过自研TPU和采用FP4等超低精度格式来提升能效,但下一代推理硬件仍需在能效上再提升一个数量级[16][17] - **记忆:上下文的深度限制**:当前最强模型的上下文窗口也不过几百万个token,限制了其一次性能处理的信息深度。未来的目标是让模型能覆盖数十亿甚至万亿个token,这需要算法和芯片注意力计算架构的重新设计[18][19][20] - **创造:从模仿到联想**:AI在训练海量知识时,会通过压缩过程自动学习到不同事物之间的共同点或类比,这本身就是一种将遥远事物联系起来的创造力。这种能力被认为是AI下一阶段加速科学发现的关键[21][22][23] - **挑战的关联性**:能效是物理成本问题,记忆是架构能力问题,创造是认知边界问题。三者相互关联:能效不突破,长上下文训练成本过高;长上下文做不到,深度联想没有基础;联想能力不行,AI就永远只是个更快的搜索引擎[24][27]
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 09:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 18:00
论文获奖与演讲背景 - 任少卿、何恺明、Ross Girshick和孙剑合著的论文《Faster R-CNN》在NeurIPS 2025会议上获得了“时间检验奖” [1] - 该论文自2015年发表以来,奠定了现代目标检测框架的核心范式,并深刻影响了随后十年的视觉模型发展方向 [1] - 何恺明在大会上发表了题为《视觉目标检测简史》的演讲,总结了30年来该领域的发展历程 [5][6] 早期目标检测:手工特征时代 - 在深度学习爆发前,计算机视觉依赖手工设计的特征和分类器,如SVM,这种方法速度慢且难以适应复杂场景 [12] - 关键里程碑包括:1996年基于神经网络的人脸检测、1997年SVM用于人脸检测、2001年Viola-Jones框架、1999年SIFT特征、2003年视觉词袋模型、2005年HOG特征与金字塔匹配核、2006年空间金字塔匹配、2008年可变形部件模型DPM [14] 深度学习破晓:从AlexNet到R-CNN - 2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了深层卷积神经网络提取特征的能力远超手工设计 [15] - 2014年,Girshick等人提出划时代的R-CNN,其思路是先用传统算法生成约2000个候选区域,再将每个区域送入CNN提取特征并用SVM分类 [17][19] - R-CNN的瓶颈在于每个候选框都需单独通过CNN,计算量巨大 [18] 速度进化:从Fast R-CNN到Faster R-CNN - 2014年,何恺明团队提出SPP-Net,引入空间金字塔池化层,允许网络处理任意大小图片并只计算一次全图特征,大大加速检测 [19] - 2015年,Girshick借鉴SPP-Net提出Fast R-CNN,引入RoI Pooling,将特征提取、分类和回归整合到一个可端到端训练的网络中 [19] - 2015年,何恺明团队最终提出Faster R-CNN,核心是引入了区域提议网络,从特征图上通过预设的Anchor直接预测物体位置,取代了传统的Selective Search算法,实现了真正的端到端实时检测 [25] 后Faster R-CNN时代:多样化发展与范式变迁 - 2016年,YOLO和SSD问世,采用单阶段检测范式,直接在全图上输出物体位置和类别,速度极快 [32] - 2017年,何恺明团队提出Focal Loss,解决了单阶段检测中正负样本不平衡的问题,并推出了RetinaNet [32] - 2017年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入了RoI Align解决像素对齐问题 [32] - 2020年,DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等后处理步骤 [32] - 2023年,SAM模型展示了视觉大模型的雏形,能够进行不限类别的通用分割 [32] 总结与启示 - 何恺明在演讲中以“驶入迷雾”比喻科学探索,强调没有预先画好的地图,甚至不知道终点是否存在 [34][36] - 从手工特征到CNN,再到Transformer,每一次飞跃都是对旧有瓶颈的突破,Faster R-CNN的核心启示在于:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它 [35]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体芯闻· 2025-12-08 18:44
人工智能竞赛与国家安全 - 全球一直处于技术竞赛中,从工业革命、二战、曼哈顿计划到冷战,而当前的人工智能竞赛可能是最重要的一场,因为科技领导力能带来信息、能源和军事上的超能力 [12] - 确保关键技术在美国本土研发和制造关系到国家安全,重振美国制造业和工业能力对于投资、就业和解决国内问题至关重要 [7][8] - 前总统特朗普的促进增长的能源政策(如“钻井,宝贝,钻井”)被认为是拯救人工智能产业的关键,没有能源增长就无法建造人工智能工厂、芯片工厂和超级计算机工厂 [8] 人工智能发展现状与未来 - 人工智能能力在过去两年里可能增长了100倍,相当于两年前的汽车速度慢了100倍,计算能力的巨大提升被用于使技术更安全、更可靠 [14] - 人工智能性能未来一千倍的提升,其中很大一部分将用于更多的反思、研究和更深层次的思考,以确保答案的准确性和基于事实,类似于汽车技术将更多动力用于ABS和牵引力控制等安全功能 [14][16] - 预计未来两三年内,世界上90%的知识可能都将由人工智能产生,这与从人类编写的材料中学习区别不大,但仍需核实事实和基于基本原理 [41] 人工智能的风险、安全与控制 - 人工智能的风险被类比为左轮手枪里有10发子弹取出8发,仍存在不确定性,但人工智能的发展将是渐进的,而非一蹴而就 [13] - 人工智能的军事应用是必要的,需要让科技公司投身国防技术研发更容易被社会接受,拥有过剩的军事力量是避免战争的最好办法之一 [19][20] - 人工智能不会突然获得意识并统治人类,因为人类也在同步使用和进步,人工智能的威胁更类似于网络安全问题,可以通过协作防御来应对 [28][30] 人工智能对就业与经济的影响 - 以放射科医生为例,人工智能并未导致该职业消失,反而因为能更高效处理影像(如3D/4D形式),使医院能服务更多患者,从而增加了放射科医生的雇佣数量,工作的核心意义(如诊断疾病)并未改变 [46][47] - 自动化会取代部分任务型工作,但会催生全新的行业和岗位,例如机器人技术将带来机器人制造、维修、服装等以前不存在的完整产业链 [50] - 关于全民基本收入与普遍富裕的讨论存在悖论,未来可能处于两者之间,富有的定义可能从拥有金钱转变为拥有丰富的资源(如信息),而目前稀缺的资源未来可能因自动化而贬值 [51][52] 技术普及与能源挑战 - 人工智能有望大幅缩小技术鸿沟,因为它是世界上最易用的应用(如ChatGPT),用户可通过自然语言交互,无需学习编程语言,且未来手机将能完全自主运行强大的人工智能 [55][56] - 能源是当前人工智能发展的主要瓶颈,未来五到十年,许多公司可能会建造自有的大约几百兆瓦的小型核反应堆来为人工智能工厂供电,这也能减轻电网负担 [57][59][60] - 加速计算是驱动人工智能革命的关键,英伟达发明的这种全新计算方式在过去十年里将计算性能提高了10万倍,遵循“英伟达定律”,使得计算所需的能耗大幅降低,未来人工智能将因能耗极低而无处不在 [58][62] 英伟达的发展历程与技术创新 - 公司成立于1993年,最初旨在创造一种全新的计算架构,早期通过与世嘉等游戏公司合作,将用于飞行模拟器的3D图形技术应用于街机,从而进入了3D图形游戏领域 [79][80][81] - 2012年,多伦多大学Geoffrey Hinton实验室的研究人员利用两张NVIDIA GPU(GTX 580 SLI)训练出AlexNet模型,在计算机视觉上取得突破性飞跃,这被视为现代人工智能的“大爆炸”起点 [63][64][71][72] - 公司发明的CUDA平台和加速计算方式,利用并行处理能力,使得GPU成为可放在个人电脑中的超级计算机,这最初为计算机图形学和游戏开发,后来成为深度学习革命的基石 [64][66] - 2016年,公司将第一台价值30万美元、运算能力为1 petaflops的DGX-1超级计算机赠予Elon Musk,用于其非营利人工智能研究(即OpenAI),九年后,同等算力的DGX Spark体积大幅缩小,价格降至4000美元 [74][75][76]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体行业观察· 2025-12-06 11:06
人工智能技术发展与竞赛 - 人工智能技术在过去两年内能力提升了约100倍 [13] - 人工智能性能未来有提升一千倍的潜力 [15] - 技术竞赛自工业革命以来一直存在 当前的人工智能竞赛是最重要的一场 [10][11] - 科技领导力至关重要 赋予信息、能源和军事超能力 [11] 人工智能应用与安全 - 大量计算能力被用于提升人工智能的安全性、可靠性和真实性 例如通过反思和研究来减少幻觉 [13][14] - 人工智能能力提升很大一部分将用于更深入的思考、周密的计划和更多的选择 [15] - 网络安全防御依赖于整个行业社群的协同合作 共享漏洞信息和补丁程序已持续约15年 [20] - 人工智能技术正被应用于国防领域 认为拥有过剩的军事力量是避免战争的最好办法之一 [16][17] 人工智能对经济与就业的影响 - 以放射科医生为例 人工智能并未导致该职业消失 反而因为提升了诊断效率和医院经济状况而增加了岗位数量 [41][42] - 工作的核心意义可能不会因自动化而改变 例如律师的职责是帮助他人 而研究文件只是部分工作 [42][43] - 人工智能可能催生全新的行业和就业岗位 例如机器人制造、维修、服装设计等 [44] - 自动驾驶技术可能不会导致所有司机失业 部分司机会转型 技术的应用会创造新的工作类型 [42][44] 人工智能普及与能源瓶颈 - 人工智能是世界上最容易使用的应用 例如ChatGPT用户数量在短时间内增长到近十亿 这有助于缩小技术鸿沟 [47] - 未来几年内 手机将能够完全自主运行人工智能 使每个国家和社会都能受益 [48] - 能源是目前人工智能发展的主要瓶颈 [48][50] - 加速计算技术在过去十年将计算性能提高了10万倍 遵循“英伟达定律” [49][51] - 随着性能提升和能耗降低 未来人工智能所需的能源将微乎其微 从而无处不在 [50] 英伟达公司发展历程与技术 - 公司成立于1993年 旨在创造一种全新的计算架构 [64] - 早期与日本世嘉合作 涉足3D图形游戏领域 游戏产业成为关键驱动力 [64][65] - 公司的GPU最初为处理电脑游戏图形而设计 采用并行处理方式 成为面向消费者的超级计算机 [52][53] - 2012年 AlexNet在计算机视觉领域取得突破 该模型使用了两张NVIDIA显卡进行训练 [51][52] - 深度学习是一种通用函数逼近器 只要有输入和输出示例 就能推导出内部函数结构 可应用于几乎任何领域 [54][55] - 2016年 公司将第一台DGX-1超级计算机(售价30万美元)赠予埃隆·马斯克 用于其非营利人工智能研究(即OpenAI) [60][61] - 从DGX-1到DGX Spark 在保持1 petaflops计算能力的同时 价格从30万美元降至4000美元 体积也大幅缩小 [62]