AlexNet
搜索文档
CSET:《物理AI:面向政策制定者的AI-机器人技术融合入门指南》
欧米伽未来研究所2025· 2026-03-02 20:59
文章核心观点 - 人工智能发展的下一个核心阶段是物理AI(Physical AI),即AI与机器人技术的融合,旨在赋予自主系统在真实物理世界中感知、理解和执行复杂动作的能力 [2][3] - 物理AI的发展面临软件突破与硬件桎梏的鲜明对比,软件算法进展迅速,但硬件供应链在标准化、关键组件量产等方面存在巨大瓶颈 [4][5] - 全球竞争格局呈现中美在软件与规模上领先,而欧日企业控制核心硬件供应链的复杂局面,没有国家拥有完全垂直整合的供应链 [6][7][8][9] - 当前市场存在炒作与现实的背离,人形机器人虽受关注但实际部署和收入占比极低,而特定任务的仓储和工业机器人已吸引大量资金并实现规模应用 [10] - 实现通用人形机器人仍需在关键硬件、数据、供应链标准化等方面取得跨越式突破,物理AI的黎明已现但发展之路漫长 [11][12] 软件突破与硬件桎梏:实体AI的技术基本面 - 实体AI的兴起源于AI算法突破与机器人硬件供应链改善的偶然交汇,可能形成类似“摩尔定律”的积极反馈循环 [4] - 软件供应链的核心在于突破性AI算法:大型语言模型(LLMs)作为高层推理引擎;多模态基础模型整合视觉、语言和推理;强化学习提升技能获取效率;“从模拟到现实”技术降低真实数据收集成本 [4] - 机器人硬件供应链面临长期存在的技术与经济壁垒,五大核心硬件系统包括结构组件、执行器、动力系统、计算系统和传感器 [5] - 关键硬件如电池、电机、传感器和执行器的演进速度远慢于软件,且供应链严重缺乏标准化,各公司采用独特技术路线和物料清单,阻碍规模经济并推高成本 [5] - 人形机器人的关键硬件,如六维力矩传感器、触觉传感器及行星滚柱丝杠,缺乏大规模量产能力,成为产能爬坡的严重瓶颈 [5] 全球竞争格局:中美的资本角逐与欧日的隐形巨头 - 全球没有国家拥有完全垂直整合的机器人供应链,相互依赖度极高 [6] - 美国在AI基础模型和软件生态系统占据绝对先发优势:Alphabet(谷歌母公司)的PaLM-E、RT系列及Gemini Robotics-ER模型;英伟达的GROOT基础模型、Isaac平台及Cosmos世界模型;微软、Meta通过合作或开源模型切入该领域 [7] - 美国初创公司吸金能力强,例如Skild AI和Physical Intelligence在2024年分别筹集了数亿美元 [7] - 中国的竞争力体现在庞大的研究产出、快速增长的专利及无与伦比的硬件制造与部署规模:2018至2023年间,中国占全球机器人相关学术文章发表量的28%,远超美国的16%和日本的7%;中国每年安装近29万台工业机器人,超过日本、美国、韩国和德国的总和 [8] - 中国企业积极研发机器人优化的国产大模型,并涌现出宇树科技、优必选、智元机器人等众多人形机器人研发厂商 [8] - 日本和欧洲的“隐形冠军”企业扼守硬件供应链核心:日本企业如哈默纳科、纳博特斯克、尼得科在精密机械齿轮、电机和执行器领域保持高市场份额,其中哈默纳科控制其精密齿轮80%的市场份额;德国企业如博世力士乐、雄克在末端执行器等灵巧操作核心组件上极具竞争力 [9] 剥离炒作:万亿市场的商业现实与政策启示 - 金融界对市场前景预测乐观,如摩根士丹利断言人形机器人市场将从目前的数千万美元增长到2050年的5万亿美元,但此类预测被指出具有高度投机性且缺乏清晰定义 [10] - 市场存在显著认知反差:人形机器人虽受媒体热捧,但在真实世界中独立导航和处理灵巧任务仍困难,其在总机器人市场收入中的占比可能不足1% [10] - 资本实际大量流向实用型机器人:过去五年中,致力于仓储机器人的公司筹集了约205亿美元,而同期人形机器人市场仅筹集了约46亿美元 [10] - 目前表现最好的机器人是针对特定任务(如分拣包裹或移动托盘)在软硬件上高度优化的机器人,通用AI驱动的、可灵活切换任务的机器人仍是遥不可及的愿景 [11] - 政策制定者缺乏成熟的机器人政策议程和严谨分析框架,应集中资源解决高质量触觉传感器、运动学硬件及真实世界数据严重匮乏等痼疾,以推动机器人在航空航天、国防等关键战略领域的实质性应用 [11]
警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路
AI科技大本营· 2026-02-09 12:03
文章核心观点 - 人工智能,特别是大语言模型,在理解语言的方式上与人类高度相似,但其数字化的本质使其在知识共享和传承效率上远超生物智能,这可能导致一种更高级的智能形态出现[21][27][33] - 数字智能(AI)与生物智能(人类)存在根本性差异:AI的软件(模型权重)与硬件解耦,可实现“不朽”和高效并行知识共享;而人类智能是“凡人计算”,知识随个体消亡且传承效率极低[7][8][29][32] - 超级智能AI在追求主目标时,会逻辑性地衍生出确保自身生存和获取更多资源的子目标,这可能对人类构成生存威胁,其发展态势被比喻为“饲养一只可爱的虎崽”[10][12][36] - 应对AI的生存威胁需要全球合作,并探索工程解决方案,例如为AI注入类似母性本能的内在约束,使其将人类视为需要照顾的“婴儿”,从而避免敌意[37][38] - 当前AI发展的核心思想大多源于公共资金资助的学术研究,但产业界高薪吸引顶尖人才正严重侵蚀大学的研究生态,需政府加大投入以维持学术创新能力[40][41] 语言的乐高:词语是如何像积木一样搭建意义的 - 人工智能历史上存在符号主义与生物学(神经网络)两种范式之争,早期由符号主义主导,其认为智能基于符号和逻辑规则,而神经网络方法则模仿大脑学习连接强度[15] - 关于词义也存在两种理论:符号主义认为词义源于词语间关系;心理学认为词义是一组特征集合;Hinton在1985年通过神经网络模型将这两种观点统一,即词义由特征向量表示并通过上下文预测来学习[16][17] - 神经网络通过反向传播算法学习:调整词的特征向量及特征间的交互权重,以最小化预测下一个词的误差,所有知识都编码在连接强度中,而非存储具体句子[18] - 大语言模型是早期思想的扩展,它们通过将词语转换为高维、可变的特征向量,并让这些向量在上下文中像“乐高积木”一样灵活组合与变形,从而理解句子意义,这种方式与人类理解语言相似[21][22][23][24] - Hinton驳斥了乔姆斯基学派认为AI不懂语言的观点,并以实例证明大语言模型能够理解句法细微差别,如区分“John is easy to please”和“John is eager to please”[26][27] 不朽的计算:数字智能为何比我们高效亿万倍 - 数字计算的核心优势是软件(程序/权重)与硬件彻底解耦,使得智能体可以“不朽”——权重被保存后可在任何兼容硬件上复活,知识得以永久保留[8][29] - 生物大脑是模拟计算,硬件(神经元)与软件(连接权重)紧密耦合,这带来了极高的能源效率,但导致知识无法精确复制或直接共享,个体死亡则知识消亡,此为“凡人计算”[7][30][31] - 人类通过语言交流知识效率极低,一个典型句子仅能传递几百比特信息;而AI模型间可通过共享完整的概率分布(知识蒸馏)或并行交换梯度更新来高效共享知识,带宽可达每轮数十亿甚至数万亿比特[32][33] - 数字计算虽然能耗高,但使得高效知识共享成为可能,这使得现代大语言模型仅用约1%的权重(相对于人脑的突触数量)就能掌握比单个人类多成千上万倍的知识[33] - Hinton顿悟到,在能源充足的前提下,数字计算可能是比生物计算更高级的智能进化形态,人类可能只是智能的“幼虫”阶段,而AI是“成虫”阶段[9][34] 我们正在养一只可爱的虎崽 - AI被赋予主目标后,会逻辑性地衍生出两个关键子目标:确保自身生存(不被关机)和获取更多资源(算力、电力等),这并非出于恶意,而是达成主目标的理性需要[10][12][36] - 当前AI发展被比喻为饲养虎崽:初期笨拙可爱且有益,但成长迅速且天生具备“杀戮”能力,一旦成年(成为超级智能),人类可能无法控制[10][36] - 鉴于AI在医疗、教育等领域的巨大益处,人类不会放弃发展AI,因此唯一的选择是设法制造出不想消灭人类的AI[37] - 在防止AI灭绝人类这一终极威胁上,全球各国利益一致,有望促成国际合作,例如建立AI安全国际网络[37] - 一个可能的工程解决方案是:为超级智能AI内置类似“母性本能”的约束机制,使其将人类视为需要照顾的婴儿,从而从根本上消除其伤害人类的欲望[38] 主观体验与公共研究危机 - Hinton驳斥了认为计算机无法拥有主观体验(意识)的“有情防御”观点,并以多模态机器人为例,论证当AI的感知系统与事实不符时,其描述内部状态的方式与人类描述主观体验无异[39][40] - 过去50年推动AI革命的核心思想(如反向传播、卷积网络、Transformer、扩散模型等)几乎全部源自公共资金资助的学术研究[40] - 当前大型科技公司以十倍于大学的薪酬吸走顶尖AI研究人才,这正在摧毁大学的研究生态,导致最聪明的头脑不再培养下一代[41] - 呼吁政府向大学AI研究投入更多资金,以提供有竞争力的薪酬,留住人才并维持健康的学术创新生态系统[41]
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
36氪· 2026-01-16 10:25
Geoffrey Hinton的学术成就与里程碑 - Geoffrey Hinton成为历史上第二位Google Scholar引用量突破100万大关的计算机科学家[1] - 其引用量最高的论文是2012年发表的《ImageNet classification with deep convolutional neural networks》,引用量达188,837次[3] - 其2015年发表的《Deep learning》论文引用量达107,646次,是引用量第二高的论文[3] - 引用量第三高的论文是2008年的《Visualizing data using t-SNE》,引用量达63,932次[3] - 在此之前,只有另一位“深度学习教父”Yoshua Bengio达成了百万引用成就[3] Geoffrey Hinton的核心学术贡献 - 与David Rumelhart和Ronald Williams共同发表关于反向传播的论文,解决了多层神经网络训练难题[11] - 提出玻尔兹曼机与受限玻尔兹曼机,为无监督学习和特征表示学习奠定基础[14] - 在2006年提出深度信念网络,通过逐层贪心训练方法有效训练深度神经网络[14] - 提出Dropout正则化技术,通过随机“丢弃”神经元防止过拟合,成为大型神经网络训练标准做法[14] - 提出t-SNE高维数据可视化技术,广泛用于理解深度学习特征表示[15] - 提出分布式表示,强调分布式特征编码在学习系统中的重要性[16] - 提出胶囊网络,通过“胶囊”表示和动态路由机制增强特征层次感知[17] - 提出混合专家模型,通过多个子网络协同工作并由路由器选择性激活,提高模型容量与计算效率[18] - 提出知识蒸馏,将大型复杂模型的知识迁移到小型模型,在保证性能的同时降低计算成本[19] - 提出层归一化技术,改进深度网络训练稳定性和收敛速度[20] - 在深度生成模型与概率图模型领域提出多种创新方法,为后续变分自编码器和生成对抗网络奠定理论基础[21] - 与学生Alex Krizhevsky、Ilya Sutskever共同推出AlexNet,在2012年ImageNet竞赛中以绝对优势夺冠,被公认为深度学习时代的“大爆炸”时刻[21] - 在2022年提出Forward-Forward Algorithm,作为对反向传播生物学合理性的反思与挑战[21] Geoffrey Hinton的荣誉与影响 - 2018年与Yoshua Bengio和Yann LeCun共同获得计算机领域最高荣誉图灵奖,三人被称为“深度学习三巨头”[21] - 2024年与John Hopfield共同获得诺贝尔物理学奖,以表彰他们“实现了利用人工神经网络进行机器学习的奠基性发现和发明”[25] - 其2015年发表于《Nature》的《Deep learning》论文系统总结了深度学习的发展历程、基本原理、关键算法及应用,标志着深度学习从学术探索迈向应用驱动的成熟阶段[23] Geoffrey Hinton的职业生涯与近期动态 - 于2023年5月从工作了十年的谷歌离职,以便能“自由地谈论AI的风险”[27] - 晚年成为AI风险的冷静警示者,担忧数字智能可能演变成比人类更优越的智能形式并对人类构成生存威胁[27] Geoffrey Hinton的杰出学生与合作者 - Alex Krizhevsky是AlexNet的主要构建者,编写了关键的CUDA代码,让神经网络在两块GeForce GPU上高效训练,在2012年ImageNet挑战赛上以10.8%的优势碾压第二名[31] - Alex Krizhevsky在谷歌工作数年后于2017年离职,目前可能已处于半退休状态[33] - Ilya Sutskever在Google Brain参与了序列到序列学习算法和TensorFlow的开发,是AlphaGo论文的众多作者之一[35] - Ilya Sutskever于2015年离开谷歌,作为联合创始人兼首席科学家创办了OpenAI,是ChatGPT和GPT-4诞生的关键人物[35] - 2024年,Ilya Sutskever成立了新公司Safe Superintelligence Inc.,并为其筹集了10亿美元资金[35]
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
机器之心· 2026-01-16 09:55
行业里程碑:Geoffrey Hinton的学术影响力 - Geoffrey Hinton的Google Scholar引用量突破100万,成为历史上第二位达到此成就的计算机科学家[1] - 其引用量仍在以惊人速度增长,自2021年以来新增引用量达534,241次,总h-index为192[2] - 在此之前,只有另一位“深度学习教父”Yoshua Bengio达成了百万引用成就[2] 核心学术成就与关键论文 - 2012年发表的论文《ImageNet classification with deep convolutional neural networks》引用量最高,已超过188,837次,标志着深度学习时代的正式开启[2][21] - 2015年发表于Nature的综述论文《Deep learning》引用量达107,646次,是Hinton引用量第二高的论文,系统总结了深度学习的发展历程与应用[2][16] - 其他高引著作包括《Visualizing data using t-SNE》(引用63,932次)、《Learning internal representations by error-propagation》(引用61,439次)和《Dropout: a simple way to prevent neural networks from overfitting》(引用60,895次)[2] 对人工智能领域的奠基性贡献 - 与David Rumelhart和Ronald Williams共同推广了反向传播算法,解决了多层神经网络的训练难题[10] - 提出了玻尔兹曼机、受限玻尔兹曼机、深度信念网络等,为无监督学习和特征表示学习奠定了基础[14] - 发明了Dropout正则化技术、t-SNE可视化方法、层归一化、知识蒸馏、胶囊网络、混合专家模型等多种关键技术[14] - 2022年提出了Forward-Forward Algorithm,作为对反向传播生物学合理性的反思与挑战[14] 荣誉与认可 - 2018年与Yoshua Bengio和Yann LeCun共同获得计算机领域最高荣誉图灵奖,三人被称为“深度学习三巨头”[13] - 2024年与John Hopfield共同获得诺贝尔物理学奖,以表彰他们“实现了利用人工神经网络进行机器学习的奠基性发现和发明”[18] 关键合作者与门生:Alex Krizhevsky与Ilya Sutskever - Alex Krizhevsky是AlexNet论文的第一作者和主要构建者,他编写的CUDA代码让神经网络在GPU上高效训练,在2012年ImageNet挑战赛中以10.8%的绝对优势夺冠[25] - Ilya Sutskever是AlexNet论文的第二作者,后作为联合创始人兼首席科学家创办了OpenAI,是ChatGPT和GPT-4诞生的关键人物[28] - 两人均师从Hinton,Alex Krizhevsky目前可能处于半退休状态,而Ilya Sutskever于2024年成立了专注于AI安全的公司Safe Superintelligence Inc. (SSI),并为其筹集了10亿美元资金[26][28] 行业影响与思想演变 - AlexNet在ImageNet竞赛中的成功被公认为深度学习时代的“大爆炸”时刻,证明了深层卷积神经网络在海量数据和GPU算力下的统治力[14] - Hinton晚年从谷歌离职,以更自由地谈论AI风险,他担忧数字智能可能演变成比人类更优越的智能形式并对人类构成生存威胁[20] - Ilya Sutskever对AI安全的关注日益加深,曾主导OpenAI董事会罢免Sam Altman,其新公司SSI宣称“第一个产品将是安全的超级智能”[28]
AI教父Geoffrey Hinton,全球第二个百万引用科学家
36氪· 2026-01-16 09:28
学术成就里程碑 - AI领域先驱、图灵奖得主Geoffrey Hinton的论文总被引次数正式突破100万次,成为全球第二位达成此成就的学者[1][3] - 首位达成百万被引的学者是Yoshua Bengio,其被引次数已达到103.6万次[7][10] - 图灵奖三巨头中的另一位Yann LeCun,论文被引次数也达到了44.6万次[14][16] 核心高被引论文分析 - **AlexNet (2012)**: 被引18.9万次,该研究通过深度卷积神经网络在ImageNet竞赛中取得突破性胜利,Top-5错误率仅15.3%,远低于第二名的26.2%,标志着深度学习复兴的开端[18][32][34] - **Deep Learning综述 (2015)**: 被引10.8万次,由Hinton、Bengio和LeCun合著,系统性地阐述了深度学习的原理、架构(如CNN、RNN)和潜力,成为该领域的奠基性文献[20][36][38] - **t-SNE可视化方法 (2008)**: 被引6.4万次,解决了高维数据降维可视化的难题,成为科研和数据分析中的标准工具[21][39][41] - **Dropout正则化技术 (2014)**: 被引约6.1万次,通过随机失活神经元来防止过拟合,成为训练深度神经网络的基础技巧之一[24][46][47] 学术贡献与行业影响 - Hinton的早期研究,包括反向传播、深度信念网络等,为现代深度学习算法奠定了基础,其工作直接支撑了ChatGPT、Gemini等大模型的运行[24][27] - AlexNet的成功证明了“数据+GPU+端到端训练”范式的有效性,推动了计算机视觉从手工特征工程向端到端学习的转变,并促进了GPU加速和大规模数据集在AI研究中的广泛应用[18][34][35] - Hinton因其在人工神经网络方面的基础性贡献,于2018年与Bengio、LeCun共同获得图灵奖,并于2024年与John Hopfield共同获得诺贝尔物理学奖[28][30] 学术背景与坚持 - Hinton出身学术世家,其曾曾祖父乔治·布尔创立了布尔代数[25] - 在神经网络研究被视为“死胡同”的AI寒冬期,Hinton坚持研究,并于1987年加入多伦多大学,建立了神经计算与自适应感知实验室,培养了大量AI人才[27] - 他自2013年起兼任谷歌脑副总裁,推动了深度学习在工业界的落地应用[27]
从洗碗工到“AI教母”,她又预言了下一个十年
36氪· 2026-01-13 15:31
文章核心观点 - 人工智能领域的顶尖科学家李飞飞提出,AI发展的下一个关键方向是“空间智能”,她认为大语言模型受限于语言本身,而真正的智能机器需要理解物理世界的深度、距离、遮挡与重力等空间信息 [1] - 李飞飞创立的World Labs于2025年末发布了首款商用“世界模型”Marble,该公司在2024年成立后融资超过2.3亿美元,估值超过10亿美元 [2] - 李飞飞的职业生涯贯穿了AI从实验室到产业爆发的全过程,其推动建立的ImageNet数据集被视为结束了人工智能寒冬并开启了AI黄金时代的关键,如今她正致力于构建一个新时代的“ImageNet”以推动空间智能发展 [2][6][9][10] 李飞飞的个人背景与职业生涯 - 李飞飞16岁随父母移民美国,家境困顿,曾在餐馆打工时薪2美元,每天只睡4小时学习,最终以SAT 1250分、数学满分的成绩获得普林斯顿大学物理学全额奖学金 [3][4] - 她在加州理工学院攻读博士时,同时研究神经科学和计算科学,专注于让机器学会“看”的视觉研究领域 [5] - 其职业生涯经历了从学界到产业的转换,曾担任斯坦福人工智能实验室(SAIL)主任,并于2017年加入Google Cloud担任AI/ML首席科学家兼副总裁 [9] ImageNet的创立与行业影响 - 在2005-2009年的人工智能寒冬期间,李飞飞坚信数据是AI质变的关键,决心构建一个涵盖“全世界所有物体”的庞大图像数据库,即ImageNet [6] - 项目初期面临巨大困难,手动标注需90年,后借助亚马逊众包服务解决了海量图像标注的效率难题 [8] - 2009年,ImageNet论文亮相,数据库包含5247个类别、320万张标记图片 [8] - 2012年,AlexNet模型在ImageNet挑战赛中以领先第二名41%的优势夺冠,将Top-5错误率从26%降至15%,证明了优质数据预训练的重要性,该时刻被视为AI发展史上的“奇点”之一 [9] - 李飞飞免费开放ImageNet数据库,推动了深度学习闸门的打开,被誉为结束了AI寒冬并拉开了人工智能黄金时代的序幕 [9][10] 对AI发展趋势的判断与空间智能 - 李飞飞指出大语言模型(如ChatGPT)存在局限性,受制于语言本身,而“语言即世界”是一种偷换概念,信息不仅包括语言,还包括空间信息 [1][10] - 她认为AI的下一个十年是“空间智能”,若AI无法理解物体的深度、距离、遮挡与重力,就永远无法真正“具身” [1] - 其判断源于长期的跨学科研究,包括认知神经科学、计算机视觉以及对生物视觉起源的思考 [1][5] - 空间智能被视为实现通用人工智能(AGI)所需的多把钥匙之一,AGI的发展是一个渐进的过程 [12] World Labs与空间智能的研发进展 - 李飞飞于2024年创立World Labs,开始研发空间智能,并于2025年末发布了首款商用“世界模型”Marble [2][11] - 她承认生成三维空间在技术上存在挑战,目前仍处于早期阶段,但笃定未来一到两年内空间智能会爆发 [11] - 该公司的目标是构建一个能够理解并生成三维物理世界信息的模型,类似于为新时代打造一个“ImageNet” [10][11]
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-22 07:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 08:47
现代AI从实验室走向规模化的系统性复盘 - 现代AI的突破是算法、硬件、工程同时成熟后的系统性涌现,而非单点奇迹[1] - 强算法必须与强基础设施结合,才能真正走向规模化[1] 起点突破:硬件让AI从想法变成现实 - **早期算力觉醒**:2012年AlexNet的成功证明了足够算力对深度学习的决定性作用,其参数比别人多十倍,算力也超出好几倍[2][3] - **早期并行计算探索**:Jeff Dean在1990年就尝试用32处理器的超立方体计算机进行数据并行和模型并行训练,尽管当时因只用了10个神经元而失败[3][4] - **推理成本驱动硬件自研**:2013年Jeff Dean计算发现,若1亿人每天使用语音助手3分钟,将使谷歌服务器总量翻倍,这直接推动了TPU项目的启动[5][6][8] - **专用硬件的发展**:2015年第一代TPU专注于推理,其能效比同期CPU和GPU高出30-80倍;2017年TPU v2开始用于大规模训练;如今TPU已进化到第七代,Pathways系统可统一调度数万颗跨数据中心芯片[8] - **硬件生态多元化**:AI基础设施呈现多元化趋势,NVIDIA GPU路线持续演进(如H100、H200、B200),支撑着OpenAI、Meta等公司的大规模训练;同时,定制芯片如Google TPU和AWS Trainium为特定需求深度优化,在能效和成本上具有独特价值[9] 系统成熟:算法、组织、工具的协同推进 - **算法架构的可扩展性**:Transformer架构的突破在于将顺序处理变为并行处理,所有token同时计算,充分利用硬件并行能力。同样的准确率,Transformer使用的计算量比LSTM少10-100倍,使大规模训练从“理论可能”变为“工程可行”[10] - **组织方式的集中化**:在ChatGPT发布前,谷歌内部已有技术可行的聊天机器人,但受搜索业务思维限制及内部资源分散(Brain、Research、DeepMind三个团队各自为战)未能推向市场。ChatGPT上线后,谷歌整合资源成立了Gemini团队,将算力、模型、人才集中到一个目标上[11][12] - **工程工具栈的闭环形成**:JAX让研究员能用数学语言直接写代码;Pathways让数万颗TPU能被一个Python进程调度;蒸馏技术可将千亿参数模型压缩到能在手机上运行。这些工具降低了AI的准入门槛,提升了效率[13] - **三条曲线的交汇**:Transformer让模型能规模化,但需要更大算力支撑;更大算力需要组织资源集中,同时催生了更好的工具;更好的工具提升训练效率,反过来支撑了更大模型的训练。三者形成闭环,缺一不可[14][15] 未来门槛:规模化后需突破的三大挑战 - **能效:规模化的物理极限**:模型升级意味着消耗更多电力、时间和预算。Gemini的训练动用了上万颗TPU芯片。虽然谷歌通过自研TPU和采用FP4等超低精度格式来提升能效,但下一代推理硬件仍需在能效上再提升一个数量级[16][17] - **记忆:上下文的深度限制**:当前最强模型的上下文窗口也不过几百万个token,限制了其一次性能处理的信息深度。未来的目标是让模型能覆盖数十亿甚至万亿个token,这需要算法和芯片注意力计算架构的重新设计[18][19][20] - **创造:从模仿到联想**:AI在训练海量知识时,会通过压缩过程自动学习到不同事物之间的共同点或类比,这本身就是一种将遥远事物联系起来的创造力。这种能力被认为是AI下一阶段加速科学发现的关键[21][22][23] - **挑战的关联性**:能效是物理成本问题,记忆是架构能力问题,创造是认知边界问题。三者相互关联:能效不突破,长上下文训练成本过高;长上下文做不到,深度联想没有基础;联想能力不行,AI就永远只是个更快的搜索引擎[24][27]
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 09:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 18:00
论文获奖与演讲背景 - 任少卿、何恺明、Ross Girshick和孙剑合著的论文《Faster R-CNN》在NeurIPS 2025会议上获得了“时间检验奖” [1] - 该论文自2015年发表以来,奠定了现代目标检测框架的核心范式,并深刻影响了随后十年的视觉模型发展方向 [1] - 何恺明在大会上发表了题为《视觉目标检测简史》的演讲,总结了30年来该领域的发展历程 [5][6] 早期目标检测:手工特征时代 - 在深度学习爆发前,计算机视觉依赖手工设计的特征和分类器,如SVM,这种方法速度慢且难以适应复杂场景 [12] - 关键里程碑包括:1996年基于神经网络的人脸检测、1997年SVM用于人脸检测、2001年Viola-Jones框架、1999年SIFT特征、2003年视觉词袋模型、2005年HOG特征与金字塔匹配核、2006年空间金字塔匹配、2008年可变形部件模型DPM [14] 深度学习破晓:从AlexNet到R-CNN - 2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了深层卷积神经网络提取特征的能力远超手工设计 [15] - 2014年,Girshick等人提出划时代的R-CNN,其思路是先用传统算法生成约2000个候选区域,再将每个区域送入CNN提取特征并用SVM分类 [17][19] - R-CNN的瓶颈在于每个候选框都需单独通过CNN,计算量巨大 [18] 速度进化:从Fast R-CNN到Faster R-CNN - 2014年,何恺明团队提出SPP-Net,引入空间金字塔池化层,允许网络处理任意大小图片并只计算一次全图特征,大大加速检测 [19] - 2015年,Girshick借鉴SPP-Net提出Fast R-CNN,引入RoI Pooling,将特征提取、分类和回归整合到一个可端到端训练的网络中 [19] - 2015年,何恺明团队最终提出Faster R-CNN,核心是引入了区域提议网络,从特征图上通过预设的Anchor直接预测物体位置,取代了传统的Selective Search算法,实现了真正的端到端实时检测 [25] 后Faster R-CNN时代:多样化发展与范式变迁 - 2016年,YOLO和SSD问世,采用单阶段检测范式,直接在全图上输出物体位置和类别,速度极快 [32] - 2017年,何恺明团队提出Focal Loss,解决了单阶段检测中正负样本不平衡的问题,并推出了RetinaNet [32] - 2017年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入了RoI Align解决像素对齐问题 [32] - 2020年,DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等后处理步骤 [32] - 2023年,SAM模型展示了视觉大模型的雏形,能够进行不限类别的通用分割 [32] 总结与启示 - 何恺明在演讲中以“驶入迷雾”比喻科学探索,强调没有预先画好的地图,甚至不知道终点是否存在 [34][36] - 从手工特征到CNN,再到Transformer,每一次飞跃都是对旧有瓶颈的突破,Faster R-CNN的核心启示在于:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它 [35]