Workflow
LSTM
icon
搜索文档
LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-25 08:27
核心观点 - AI领域两位顶尖学者Yann LeCun与Demis Hassabis就“智能的本质”展开激烈论战,核心分歧在于对“通用智能”的定义和理解,这场辩论也指向了实现AGI的不同技术路径——世界模型 [1][2][3][8][30][31][42] 关于“通用智能”的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出的能力,并非真正通用 [3][9][13][31] - 论证1:人类在某些领域(如国际象棋)表现很差,而有些动物更强,证明人类是“专才” [10] - 论证2:人类能理解的问题局限于自身认知范围,“通用”是一种错觉 [11] - 论证3:理论上的图灵完备不等于实际通用,人脑在资源受限下解决现实问题的效率远非最优,是高度优化的结果 [34][35] - 论证4:以视觉为例,人脑能实现的布尔函数在所有可能函数中只占一个无穷小的比例,证明其高度专业化而非通用 [36][37] - **Demis Hassabis的观点**:认为LeCun大错特错,混淆了“通用智能”与“普适智能”的概念,坚信通用智能存在且潜力巨大 [3][15][16][31] - 论证1:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,是通用智能可行性的存在性证明 [17][24] - 论证2:从图灵机理论看,只要给予足够时间、内存和数据,人脑及AI基础模型能够学习任何可计算内容,具有通用性核心 [18] - 论证3:人类能发明国际象棋乃至整个现代文明,展现了人脑惊人的通用潜力 [19][20] - 论证4:衡量智能的关键标准是通用性和学习能力,以“深蓝”为例,其虽擅长象棋但不会玩井字游戏,足见其死板,反衬人脑的通用 [22] 争论的实质与共识 - **分歧核心**:双方承认分歧部分在于用词,LeCun反对用“通用”指代“人类水平” [32][33] - **实质差异**:两人谈论的是不同问题,LeCun强调“我们是什么”(智能是高度专业化的产物),Hassabis强调“我们能成为什么”(智能具有通用潜力) [41] - **共同指向**:辩论共同指向如何实现AGI这一更深层议题,答案都聚焦于“世界模型” [42] 实现AGI的路径:世界模型 - **Yann LeCun的路径**:即将创业,新公司名为Advanced Machine Intelligence Labs,目标估值30亿欧元(约247亿人民币),专注于世界模型 [43] - 核心理念:世界模型即认知框架,追求掌握控制理论和认知科学,关注世界的抽象表征而非像素渲染,旨在捕捉用于AI决策的世界状态 [44][45][50] - **Demis Hassabis/谷歌DeepMind的路径**:同样将世界模型作为重点,已推出Genie 3等模型 [46][47] - 核心理念:世界模型即模拟器,指能够理解世界运行机制中因果关系与协同效应的模型,是一种“直观物理学” [47] - 实践形式:通过构建逼真的、可交互的世界(如视频模型Genie, Veo)来检验和理解世界,视为通往AGI的关键一步 [48][49][50] 行业背景与相关动态 - **历史争论**:AI领域的跃迁常伴随类似争吵,如符号主义与连接主义、端到端学习与模块化系统、开源与闭源之争等 [51] - **相关人物动态**:LSTM之父Jürgen Schmidhuber指出其团队在2014年已涉猎与LeCun创业方向高度相似的世界模型技术 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT前被称为“最具商业价值的人工智能成就” [53] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58]
MIT最新发现:这十年,算法进步被高估了
机器之心· 2025-12-11 10:47
文章核心观点 - 过去十年AI的进步由计算预算增长和算法创新共同推动,但算法进步的量化及其来源尚不清晰 [2] - 一项2024年的研究发现,算法进步在过去十年贡献了超过4个数量级的有效计算量提升,而计算规模本身增长了7个数量级 [2] - 研究通过三种互补方法得出结论:大多数算法创新带来的效率提升有限且与规模无关,而少数强烈依赖规模的创新(如LSTM到Transformer,Kaplan到Chinchilla)贡献了绝大部分的效率提升,且算法进步的速度和幅度高度依赖于所选的参考基线 [3][4][6] 算法进步的量化与总体影响 - 所有算法创新加起来使模型效率提高了约22,000倍,理论上可用少得多的浮点运算次数达到相同性能 [3] - 在总计21,400倍(相对于LSTM模型)的性能提升中,从LSTM转向Kaplan Transformer模型贡献了846倍的提升,Chinchilla训练策略贡献了近10倍的提升,这两项创新共同构成了总相对效率提升的91% [4][22] - 与规模无关的算法进步总体计算效率提升不到10倍,在推算到2025年计算能力极限(2 × 10²³ FLOPs)时,这些提升仅占总改进的不到10% [4] 算法进步的特性与模式 - 大多数经过实验评估的算法创新只带来小幅的、与规模无关的效率提升,提升倍数极不均匀,主要集中在少数几项改进上(如Adam优化器、pre-RMSNorm带来约2倍提升)[4][11] - 算法进步呈现断裂或不连续的模式:多年小幅改进之后,会出现一次较大的算法跃迁 [12] - 原始论文所声称的效率提升,往往远高于后续文献给出的估计以及该研究本身的实验结果 [9] 规模依赖型算法创新 - 研究发现有两项强烈依赖规模的算法创新:从LSTM到Transformer,以及从Kaplan到Chinchilla训练策略 [4] - 神经网络架构的改进具有随规模增加而回报提升的特性,并非规模不变 [20] - 从小模型LSTM切换到现代Transformer的总效率提升为6.28倍,切换到Retro Transformer的效率提升为4.69倍,这远低于此前文献估计的约60倍提升 [11] 算法进步与计算规模的关系 - 算法进步可能本质上就是依赖规模的,要真正体现其效益需要不断增长的计算规模 [6] - 算法进步对大模型开发者的益处远大于对小规模参与者的益处 [6] - 前沿模型的计算预算正以每年4.2倍的速度呈指数增长,算法进步的速率可能更多受算力扩张推动,而非不断涌现的算法创新 [22] 算法进步速度的参照系依赖 - 算法进步的速度强烈依赖于所选择的参考算法 [4] - 以LSTM为参照,Transformer系列(尤其是更大模型)会显得算法进步是指数增长的(论文测到一年增长率大约63%);但以Transformer自身为参照,随着规模变大,算法进步幅度很小(只比以前好约2倍)[24][25] - 换个对照组,算法进步的速度评估结果会从指数增长变为增长幅度很少 [26]
被拒≠失败!这些高影响力论文都被顶会拒收过
机器之心· 2025-12-11 10:47
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法,该方法借鉴了创建Gemini Flash模型的经验,旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出,其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿,但如今已成为模型压缩和大模型落地的标配方法,论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**:由Sepp Hochreiter和Jürgen Schmidhuber提出,在1996年被NIPS拒稿,拒稿理由包括参数过多、过于复杂且缺乏生物学合理性,如今引用量达139,707次,并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**:由David Lowe提出,在1997年和1998年先后被ICCV和CVPR拒稿,理由是被认为“过于繁琐”、“不够优雅”,最终以Poster形式发表,曾统治计算机视觉领域长达15年,如今引用量达27,389次[11][14] - **Dropout**:由Geoffrey Hinton团队提出,在2012年投稿NIPS时被拒,评审认为其核心思想过于激进且缺乏数理逻辑,但该技术迅速成为AlexNet夺冠ImageNet的关键,如今引用量达60,231次[17] - **Word2Vec**:由Tomas Mikolov等人提出,在首届ICLR会议上收到“Strong Reject”评价,评审认为其“比较不科学”、“定义模糊”,但通过开源代码迅速成为NLP领域基石,并于2023年获NeurIPS“时间检验奖”,如今引用量达50,855次[19][20] - **YOLO**:由Joseph Redmon等人提出,在2015年被ICCV拒稿,评审因其定位精度不如R-CNN系列而拒绝,但忽视了其实现45 FPS实时检测的速度优势,如今YOLO系列已迭代至v13,成为工业界最受欢迎的检测框架,引用量达69,782次[27][28][30] - **RoBERTa**:由Meta AI研究人员提出,在投稿ICLR 2020时被拒,评审认为其新颖性和技术贡献有限,只是“仔细调参”和“使用更多数据”,但该模型超越了原始BERT,成为后续NLP研究的标准基线,如今引用量达23,479次[32] - **Mamba**:由Albert Gu和Tri Dao提出,在ICLR 2024评审中折戟,评审理由包括与其前作S4相比增量不足、未全面超越Transformer等,但该架构在社区引发热烈讨论,基于其的变体大量涌现,成为2024年最具影响力的架构创新之一,如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后,表现为“简单性陷阱”,即倾向于将数学复杂性等同于研究贡献,从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者,存在“范式惯性”,当YOLO或Deep Image Prior等新思想出现时,旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域,过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破,例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石,但难以摆脱人类认知的局限性,它善于识别错误,却往往拙于鉴别天才,真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]
LSTM之父向何恺明开炮:我学生才是残差学习奠基人
量子位· 2025-10-19 14:10
残差学习技术发展脉络 - 残差学习思想最早可追溯至1991年,Sepp Hochreiter在其博士论文中首次系统性分析RNN梯度消失问题并提出循环残差连接解决方案[12][13] - 循环残差连接核心机制是使用权重严格为1.0的恒等激活单元,使误差信号在反向传播中保持恒定,避免梯度消失或爆炸[13][14] 权重接近1.0(如0.99)会导致误差信号在100个时间步后衰减至37%,而0.9权重会使信号衰减至0.0027%[15] - 1997年LSTM论文提出恒定误差轮盘(CECs)机制,通过权重为1.0的循环残差连接使误差在数百至数千时间步内不衰减,该论文成为20世纪引用最多的人工智能论文[18][19] 残差网络架构演进 - Highway网络于2015年5月首次实现上百层深度前馈网络训练,较传统20-30层网络深度提升10倍以上,其核心将LSTM门控残差思想引入前馈网络[23] - ResNet于2015年12月在ImageNet竞赛成功应用残差连接,其设计与展开的LSTM及初始化Highway网络高度相似,若将Highway网络门恒定设置为1.0即可得到纯残差网络ResNet[24] - LSTM与Highway网络分别奠定循环和前馈网络的深度训练基础,ResNet实质是1997年LSTM前馈变体的延续应用[26] 学术贡献归属争议 - Jürgen Schmidhuber认为残差学习成果完全归因于何恺明团队有失偏颇,强调其学生Sepp Hochreiter在1991年已提出核心思想[3][10] - 深度学习三巨头(Bengio、Hinton、LeCun)在Nature综述论文中大量引用自身成果却未提及Jürgen等人,引发长期学术争论[7][8] - Jürgen声称LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer均受其实验室成果启发,但除LSTM外其他成果未获普遍认可[28][31]