Batch Normalization(批次归一化)

搜索文档
陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了
36氪· 2025-09-14 13:16
不得了,这个名叫Gauss(高斯)的新AI Agent,有点杀疯了的感觉。 这里的形式化(formalization),指的是把人类写的数学内容转换成一种机器可读、可检查、严密无歧义的形式语言,然后利用计算机帮助验证其正确 性。 而陶哲轩和Alex Kontorovich之所以目前仅取得阶段性进展,问题就卡在了复分析(complex analysis)的核心难题上。 而这个Gauss作为硅基生命,它的特点就是可以不停的工作,极大地压缩了以前只有顶尖形式化专家才能完成的工作量;与此同时,Gauss还形式化了上面 提到的复分析中关键的缺失结果。 这就是为什么它能三周解决陶哲轩18个月都未能完成的数学挑战的原因了。 因为它只用了三周的时间,就完成了陶哲轩和Alex Kontorovich提出的数学挑战—— 在Lean中形式化强素数定理(Prime Number Theorem,PNT)。 要知道,陶哲轩和Kontorovich在2024年1月提出这个挑战后,足足花了18个月(今年7月)的时间,也才取得阶段性的进展。 那么这个Gauss到底是什么来头? 它的背后是一家叫做Math的AI公司,据介绍,Gauss是首个可 ...
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 16:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]