LSTM - 财报，业绩电话会，研报，新闻

LSTM

搜索文档

量子位· 2025-12-25 08:27

核心观点 - AI领域两位顶尖学者Yann LeCun与Demis Hassabis就“智能的本质”展开激烈论战，核心分歧在于对“通用智能”的定义和理解，这场辩论也指向了实现AGI的不同技术路径——世界模型 [1][2][3][8][30][31][42] 关于“通用智能”的争论 - **Yann LeCun的观点**：认为“通用智能”是胡扯（complete BS），人类智能是高度专业化的，是为了适应现实物理世界而专门进化出的能力，并非真正通用 [3][9][13][31] - 论证1：人类在某些领域（如国际象棋）表现很差，而有些动物更强，证明人类是“专才” [10] - 论证2：人类能理解的问题局限于自身认知范围，“通用”是一种错觉 [11] - 论证3：理论上的图灵完备不等于实际通用，人脑在资源受限下解决现实问题的效率远非最优，是高度优化的结果 [34][35] - 论证4：以视觉为例，人脑能实现的布尔函数在所有可能函数中只占一个无穷小的比例，证明其高度专业化而非通用 [36][37] - **Demis Hassabis的观点**：认为LeCun大错特错，混淆了“通用智能”与“普适智能”的概念，坚信通用智能存在且潜力巨大 [3][15][16][31] - 论证1：大脑是宇宙中已知最精妙复杂的事物，具有极强的通用性，是通用智能可行性的存在性证明 [17][24] - 论证2：从图灵机理论看，只要给予足够时间、内存和数据，人脑及AI基础模型能够学习任何可计算内容，具有通用性核心 [18] - 论证3：人类能发明国际象棋乃至整个现代文明，展现了人脑惊人的通用潜力 [19][20] - 论证4：衡量智能的关键标准是通用性和学习能力，以“深蓝”为例，其虽擅长象棋但不会玩井字游戏，足见其死板，反衬人脑的通用 [22] 争论的实质与共识 - **分歧核心**：双方承认分歧部分在于用词，LeCun反对用“通用”指代“人类水平” [32][33] - **实质差异**：两人谈论的是不同问题，LeCun强调“我们是什么”（智能是高度专业化的产物），Hassabis强调“我们能成为什么”（智能具有通用潜力） [41] - **共同指向**：辩论共同指向如何实现AGI这一更深层议题，答案都聚焦于“世界模型” [42] 实现AGI的路径：世界模型 - **Yann LeCun的路径**：即将创业，新公司名为Advanced Machine Intelligence Labs，目标估值30亿欧元（约247亿人民币），专注于世界模型 [43] - 核心理念：世界模型即认知框架，追求掌握控制理论和认知科学，关注世界的抽象表征而非像素渲染，旨在捕捉用于AI决策的世界状态 [44][45][50] - **Demis Hassabis/谷歌DeepMind的路径**：同样将世界模型作为重点，已推出Genie 3等模型 [46][47] - 核心理念：世界模型即模拟器，指能够理解世界运行机制中因果关系与协同效应的模型，是一种“直观物理学” [47] - 实践形式：通过构建逼真的、可交互的世界（如视频模型Genie, Veo）来检验和理解世界，视为通往AGI的关键一步 [48][49][50] 行业背景与相关动态 - **历史争论**：AI领域的跃迁常伴随类似争吵，如符号主义与连接主义、端到端学习与模块化系统、开源与闭源之争等 [51] - **相关人物动态**：LSTM之父Jürgen Schmidhuber指出其团队在2014年已涉猎与LeCun创业方向高度相似的世界模型技术 [51][53] - Schmidhuber被称为“成熟人工智能之父”，其发明的LSTM在ChatGPT前被称为“最具商业价值的人工智能成就” [53] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58]

机器之心· 2025-12-11 10:47

文章核心观点 - 过去十年AI的进步由计算预算增长和算法创新共同推动，但算法进步的量化及其来源尚不清晰 [2] - 一项2024年的研究发现，算法进步在过去十年贡献了超过4个数量级的有效计算量提升，而计算规模本身增长了7个数量级 [2] - 研究通过三种互补方法得出结论：大多数算法创新带来的效率提升有限且与规模无关，而少数强烈依赖规模的创新（如LSTM到Transformer，Kaplan到Chinchilla）贡献了绝大部分的效率提升，且算法进步的速度和幅度高度依赖于所选的参考基线 [3][4][6] 算法进步的量化与总体影响 - 所有算法创新加起来使模型效率提高了约22,000倍，理论上可用少得多的浮点运算次数达到相同性能 [3] - 在总计21,400倍（相对于LSTM模型）的性能提升中，从LSTM转向Kaplan Transformer模型贡献了846倍的提升，Chinchilla训练策略贡献了近10倍的提升，这两项创新共同构成了总相对效率提升的91% [4][22] - 与规模无关的算法进步总体计算效率提升不到10倍，在推算到2025年计算能力极限（2 × 10²³ FLOPs）时，这些提升仅占总改进的不到10% [4] 算法进步的特性与模式 - 大多数经过实验评估的算法创新只带来小幅的、与规模无关的效率提升，提升倍数极不均匀，主要集中在少数几项改进上（如Adam优化器、pre-RMSNorm带来约2倍提升）[4][11] - 算法进步呈现断裂或不连续的模式：多年小幅改进之后，会出现一次较大的算法跃迁 [12] - 原始论文所声称的效率提升，往往远高于后续文献给出的估计以及该研究本身的实验结果 [9] 规模依赖型算法创新 - 研究发现有两项强烈依赖规模的算法创新：从LSTM到Transformer，以及从Kaplan到Chinchilla训练策略 [4] - 神经网络架构的改进具有随规模增加而回报提升的特性，并非规模不变 [20] - 从小模型LSTM切换到现代Transformer的总效率提升为6.28倍，切换到Retro Transformer的效率提升为4.69倍，这远低于此前文献估计的约60倍提升 [11] 算法进步与计算规模的关系 - 算法进步可能本质上就是依赖规模的，要真正体现其效益需要不断增长的计算规模 [6] - 算法进步对大模型开发者的益处远大于对小规模参与者的益处 [6] - 前沿模型的计算预算正以每年4.2倍的速度呈指数增长，算法进步的速率可能更多受算力扩张推动，而非不断涌现的算法创新 [22] 算法进步速度的参照系依赖 - 算法进步的速度强烈依赖于所选择的参考算法 [4] - 以LSTM为参照，Transformer系列（尤其是更大模型）会显得算法进步是指数增长的（论文测到一年增长率大约63%）；但以Transformer自身为参照，随着规模变大，算法进步幅度很小（只比以前好约2倍）[24][25] - 换个对照组，算法进步的速度评估结果会从指数增长变为增长幅度很少 [26]

被拒≠失败！这些高影响力论文都被顶会拒收过

机器之心· 2025-12-11 10:47

Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客，详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法，该方法借鉴了创建Gemini Flash模型的经验，旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出，其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿，但如今已成为模型压缩和大模型落地的标配方法，论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**：由Sepp Hochreiter和Jürgen Schmidhuber提出，在1996年被NIPS拒稿，拒稿理由包括参数过多、过于复杂且缺乏生物学合理性，如今引用量达139,707次，并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**：由David Lowe提出，在1997年和1998年先后被ICCV和CVPR拒稿，理由是被认为“过于繁琐”、“不够优雅”，最终以Poster形式发表，曾统治计算机视觉领域长达15年，如今引用量达27,389次[11][14] - **Dropout**：由Geoffrey Hinton团队提出，在2012年投稿NIPS时被拒，评审认为其核心思想过于激进且缺乏数理逻辑，但该技术迅速成为AlexNet夺冠ImageNet的关键，如今引用量达60,231次[17] - **Word2Vec**：由Tomas Mikolov等人提出，在首届ICLR会议上收到“Strong Reject”评价，评审认为其“比较不科学”、“定义模糊”，但通过开源代码迅速成为NLP领域基石，并于2023年获NeurIPS“时间检验奖”，如今引用量达50,855次[19][20] - **YOLO**：由Joseph Redmon等人提出，在2015年被ICCV拒稿，评审因其定位精度不如R-CNN系列而拒绝，但忽视了其实现45 FPS实时检测的速度优势，如今YOLO系列已迭代至v13，成为工业界最受欢迎的检测框架，引用量达69,782次[27][28][30] - **RoBERTa**：由Meta AI研究人员提出，在投稿ICLR 2020时被拒，评审认为其新颖性和技术贡献有限，只是“仔细调参”和“使用更多数据”，但该模型超越了原始BERT，成为后续NLP研究的标准基线，如今引用量达23,479次[32] - **Mamba**：由Albert Gu和Tri Dao提出，在ICLR 2024评审中折戟，评审理由包括与其前作S4相比增量不足、未全面超越Transformer等，但该架构在社区引发热烈讨论，基于其的变体大量涌现，成为2024年最具影响力的架构创新之一，如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后，表现为“简单性陷阱”，即倾向于将数学复杂性等同于研究贡献，从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者，存在“范式惯性”，当YOLO或Deep Image Prior等新思想出现时，旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域，过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破，例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石，但难以摆脱人类认知的局限性，它善于识别错误，却往往拙于鉴别天才，真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]

LSTM之父向何恺明开炮：我学生才是残差学习奠基人

量子位· 2025-10-19 14:10

残差学习技术发展脉络 - 残差学习思想最早可追溯至1991年，Sepp Hochreiter在其博士论文中首次系统性分析RNN梯度消失问题并提出循环残差连接解决方案[12][13] - 循环残差连接核心机制是使用权重严格为1.0的恒等激活单元，使误差信号在反向传播中保持恒定，避免梯度消失或爆炸[13][14] 权重接近1.0（如0.99）会导致误差信号在100个时间步后衰减至37%，而0.9权重会使信号衰减至0.0027%[15] - 1997年LSTM论文提出恒定误差轮盘（CECs）机制，通过权重为1.0的循环残差连接使误差在数百至数千时间步内不衰减，该论文成为20世纪引用最多的人工智能论文[18][19] 残差网络架构演进 - Highway网络于2015年5月首次实现上百层深度前馈网络训练，较传统20-30层网络深度提升10倍以上，其核心将LSTM门控残差思想引入前馈网络[23] - ResNet于2015年12月在ImageNet竞赛成功应用残差连接，其设计与展开的LSTM及初始化Highway网络高度相似，若将Highway网络门恒定设置为1.0即可得到纯残差网络ResNet[24] - LSTM与Highway网络分别奠定循环和前馈网络的深度训练基础，ResNet实质是1997年LSTM前馈变体的延续应用[26] 学术贡献归属争议 - Jürgen Schmidhuber认为残差学习成果完全归因于何恺明团队有失偏颇，强调其学生Sepp Hochreiter在1991年已提出核心思想[3][10] - 深度学习三巨头（Bengio、Hinton、LeCun）在Nature综述论文中大量引用自身成果却未提及Jürgen等人，引发长期学术争论[7][8] - Jürgen声称LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer均受其实验室成果启发，但除LSTM外其他成果未获普遍认可[28][31]