Workflow
几何
icon
搜索文档
参数空间对称性:深度学习理论的统一几何框架
机器之心· 2025-10-29 17:25
文章核心观点 - 深度学习模型的有效性部分源于神经网络参数空间中广泛存在的对称性,即大量不同的参数配置可实现相同的模型函数 [2] - 参数空间对称性为理解深度学习的优化动态、损失地形和泛化性能提供了统一的数学框架和几何视角 [2][6] - 对称性研究正从理论概念转化为可操作的算法原则,影响优化方法、模型融合及权重空间学习等多个领域 [31] 参数空间对称性的定义与类型 - 参数空间对称性是指保持神经网络损失函数不变的参数变换,数学上表示为 L(g·θ) = L(θ),这些变换构成一个群并在参数空间中定义等价轨道 [6] - 离散对称性如神经元置换对称:交换隐藏层中两个神经元及其关联权重,网络函数保持不变 [4][6] - 连续对称性如ReLU网络的缩放对称和自注意力机制的一般线性对称,可将孤立极小值点拉伸成连续的平坦流形 [7][8][10] 对称性对损失地形的影响 - 连续对称性导致损失地形中出现平坦的极小值流形,沿此流形移动损失值不变,这意味着许多平坦方向由结构对称性决定而非泛化能力 [10][13] - 离散对称性会在参数空间复制大量功能相同的极小值副本,使极小值数量随网络宽度呈阶乘级增长 [13] - 对称性天然创造连接功能等价参数的连续路径,这解释了独立训练模型间观察到的模式连通性及模型融合的有效性 [10] 对称性在优化算法中的应用 - 对称性导致等损失点可能对应不同的梯度和训练轨迹,为算法设计带来新可能 [15][16] - 一类优化方法主动利用对称性在等价轨道中寻找梯度更优的点以加速收敛,另一类方法追求对称不变性使优化结果对初始变换不敏感 [16][19] - 对称性成为理解和改进优化算法的重要线索,其应用思路分为利用自由度和约简冗余两种 [19] 对称性与学习动力学 - 连续对称性对应训练过程中的守恒量,类似物理中的诺特定理,这些量在梯度流中保持恒定 [21][22] - 守恒量如线性网络中相邻层的Gram矩阵差、ReLU网络中输入输出权重的范数差,揭示了训练稳定性并帮助解释优化的隐式偏置 [22][23] - 不同的初始化对应不同的守恒量值,从而影响最终收敛点和泛化性能,参数空间的对称结构决定了学习轨迹与结果的统计分布 [23][25] 跨空间的对称性联系 - 参数空间对称性与数据空间和内部表征空间的对称性紧密相连,当数据分布具有对称性时,模型参数会继承这些结构 [27][28] - 在权重空间学习等新兴方向中,对称性成为新的数据结构,支持等变元网络在模型性质分析、生成及优化权重更新等任务中的应用 [28][29] - 等变元网络可直接在模型权重上进行学习,用于预测模型泛化能力或生成满足特定特征的新模型 [29]
北大校友王虹,将任法国高等研究所常任教授!2/3前辈为菲尔兹奖得主
量子位· 2025-05-28 13:59
王虹学术成就与职业动向 - 王虹将于2025年9月1日加入法国高等研究所(IHES)担任数学常任教授,并同时任职于纽约大学柯朗数学科学研究所 [2][6] - IHES目前仅有7位常任教授,其中5位为数学家,包括2名菲尔兹奖获得者(Maxim Kontsevich和Hugo Duminil-Copin) [3] - IHES历任数学常任教授中,13人中有8人曾获菲尔兹奖 [4] 挂谷猜想破解与学术影响 - 王虹与Joshua Zahl合作于2024年2月破解了百年数学难题挂谷猜想,该猜想涉及三维空间中集合的维度理论 [10][11] - 成果与调和分析、数论等多个数学分支紧密关联,引发学界广泛关注 [12][13] - 纽约大学相关讲座现场爆满,数学界认为该成果具备菲尔兹奖潜力 [14] 王虹教育背景与研究领域 - 1991年生于广西桂林,16岁考入北大地球与空间物理系后转数学系,2011年获学士学位 [15] - 2014年获巴黎综合理工学院工程师学位及巴黎第十一大学硕士学位,2019年于麻省理工博士毕业,师从Larry Guth [16] - 研究方向聚焦傅里叶变换相关问题,曾任职普林斯顿高等研究院及UCLA [16][17] IHES学术传统与未来规划 - IHES公告提及王虹将延续该机构在数学分析与几何领域的卓越传统,此前代表人物包括菲尔兹奖得主Jean Bourgain和阿贝尔奖得主Misha Gromov [18] - 菲尔兹奖获得者Hugo Duminil-Copin公开欢迎王虹,强调IHES提供的研究自由与创造力环境 [7][8]