Workflow
8/8/7分被NeurIPS拒稿,谢赛宁读博投的首篇论文,10年后获AISTATS 2025时间检验奖
机器之心·2025-05-05 11:40

会议与奖项 - 第28届国际人工智能与统计学会议(AISTATS)在泰国举办,该会议是人工智能、机器学习与统计学交叉领域的重要国际会议,致力于促进计算机科学、人工智能、机器学习和统计学等领域研究者之间的交流与合作 [1] - 会议主办方公布了本年度时间检验奖,授予UCSD与微软研究院合著的论文《Deeply-Supervised Nets》(深度监督网络),共同一作分别为Chen-Yu Lee(现为谷歌研究科学家)和谢赛宁(现为纽约大学助理教授) [1] - 该论文被引数已经超过了3000,具有较高的学术影响力 [3] 论文背景与作者分享 - 《Deeply-Supervised Nets》是谢赛宁读博期间提交的第一篇论文,最初被NeurIPS拒稿(分数为8/8/7),但最终获得AISTATS 2025时间检验奖 [5] - 谢赛宁寄语同学们,如果对论文评审结果感到沮丧,可以将他的经历当作提醒,坚持不懈会带来收获 [5] - 共同一作Chen-Yu Lee也对论文获奖感到自豪,并表示这项研究成果至今仍具有重要意义和影响力 [6] 论文摘要与核心问题 - 深度学习在图像分类和语音识别等任务中表现优异,但仍存在隐藏层特征透明度低、梯度爆炸和消失导致训练困难、缺乏透彻的数学理解等问题 [11] - 深度学习框架的改进包括微调特征尺度、步长和收敛速度的方法,以及dropout、dropconnect、预训练和数据增强等技术 [11] - 梯度消失问题使得深度学习训练缓慢且低效 [11] 论文方法与创新 - 提出深度监督网络(DSN),对隐藏层和输出层都强制进行直接和早期监督,并为各个隐藏层引入伴随目标,显著提高了现有监督深度学习方法的性能 [12] - DSN框架支持SVM、softmax等多种分类器选择,独特价值在于实现对每个中间层的直接监督控制 [12] - 实验证明DSN方法的收敛速度优于标准方法,前提是假设优化函数具有局部强凸性 [12] 实验结果与性能提升 - DSN-SVM和DSN-Softmax在MNIST、CIFAR-10、CIFAR-100及SVHN数据集上刷新当前最优纪录 [13] - 在500个样本时,DSN-SVM比CNN-Softmax提高了26% [13] - 在CIFAR-10上,DSN方法的错误率为0.39%,优于CNN(0.53%)、Stochastic Pooling(0.47%)、Network in Network(0.47%)和Maxout Networks(0.45%) [15] 特征学习与工程优化 - DSN学习到的特征图比CNN学习到的特征图更直观,展示了从第一个卷积层学习到的特征图,仅显示前30%的激活值 [16] - DSN框架可兼容模型平均、dropconnect和Maxout等先进技术,通过精细化工程优化可进一步降低分类误差 [16]