Workflow
Highway网络
icon
搜索文档
LSTM之父向何恺明开炮:我学生才是残差学习奠基人
量子位· 2025-10-19 14:10
残差学习技术发展脉络 - 残差学习思想最早可追溯至1991年,Sepp Hochreiter在其博士论文中首次系统性分析RNN梯度消失问题并提出循环残差连接解决方案[12][13] - 循环残差连接核心机制是使用权重严格为1.0的恒等激活单元,使误差信号在反向传播中保持恒定,避免梯度消失或爆炸[13][14] 权重接近1.0(如0.99)会导致误差信号在100个时间步后衰减至37%,而0.9权重会使信号衰减至0.0027%[15] - 1997年LSTM论文提出恒定误差轮盘(CECs)机制,通过权重为1.0的循环残差连接使误差在数百至数千时间步内不衰减,该论文成为20世纪引用最多的人工智能论文[18][19] 残差网络架构演进 - Highway网络于2015年5月首次实现上百层深度前馈网络训练,较传统20-30层网络深度提升10倍以上,其核心将LSTM门控残差思想引入前馈网络[23] - ResNet于2015年12月在ImageNet竞赛成功应用残差连接,其设计与展开的LSTM及初始化Highway网络高度相似,若将Highway网络门恒定设置为1.0即可得到纯残差网络ResNet[24] - LSTM与Highway网络分别奠定循环和前馈网络的深度训练基础,ResNet实质是1997年LSTM前馈变体的延续应用[26] 学术贡献归属争议 - Jürgen Schmidhuber认为残差学习成果完全归因于何恺明团队有失偏颇,强调其学生Sepp Hochreiter在1991年已提出核心思想[3][10] - 深度学习三巨头(Bengio、Hinton、LeCun)在Nature综述论文中大量引用自身成果却未提及Jürgen等人,引发长期学术争论[7][8] - Jürgen声称LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer均受其实验室成果启发,但除LSTM外其他成果未获普遍认可[28][31]