核心观点 - 谷歌DeepMind利用其开发的AlphaEvolve系统,在无限的Python函数空间中自动搜索并发现了全新的神经网络激活函数,这些函数在分布外泛化能力上超越了ReLU和GELU等现有标准函数,标志着AI设计AI的方法论革新 [2][4] 研究方法论革新 - 核心工具是AlphaEvolve,一个由LLM驱动的进化编码系统,它直接编写和修改Python代码来探索激活函数,突破了传统神经架构搜索受限于预定义数学算子的限制 [8][11] - 采用“微型实验室”策略,使用专门设计的合成数据来优化分布外泛化能力,避免了在ImageNet等大型数据集上进行昂贵搜索,实现了用小数据撬动大智慧 [4][14][40] - 系统的适应度函数基于分布外测试数据的验证损失,迫使模型学习举一反三,从而捕捉更本质的归纳偏置 [17][18] 新发现的激活函数及其特性 - 发现表现最佳的激活函数普遍遵循“标准激活函数+周期性扰动项”的通用公式,例如GELUSine和GELU-Sinc-Perturbation [25] - GELUSine:在GELU基础上增加了正弦项,引入周期性“摆动”以帮助优化过程逃离局部极小值 [26] - GELU-Sinc-Perturbation:公式为 GELU(x) * (1 + 0.5 * sinc(x)),在保留GELU渐近行为的同时,在原点附近引入了受控的非线性复杂性 [26][27] - GMTU (Gaussian-Modulated Tangent Unit):结合了Tanh、高斯衰减和线性泄漏项,形状类似调制波,但计算成本较高 [28] - 湍流激活函数 (Turbulent):在合成数据上测试损失极低(29.8 ×10⁻³),但严重过拟合,迁移到真实任务时表现不佳,凸显了逐点激活函数的鲁棒性价值 [21][29] 在真实任务上的性能表现 - 在算法推理任务(CLRS-30)上表现出色:GELU-Sinc-Perturbation取得了0.887的测试分数,显著优于ReLU的0.862和GELU的0.874 [34][36] - 在标准视觉任务上保持竞争力:在ImageNet上,GELUSine和GELU-Sinc-Perturbation的Top-1准确率约74.5%,与GELU持平并远超ReLU的73.5% [34][36] - 周期性扰动的有效性:周期性函数允许模型在训练域内“存储”频率信息,并在外推时通过周期性结构“检索”,这被认为是一种隐式的频率分析,有助于捕捉数据的复杂结构 [35] 对行业与AI研发的启示 - 代码即搜索空间:利用LLM直接编写代码作为搜索空间,比预定义数学算子更灵活强大,LLM生成的函数甚至能提供人类可读的设计思路解释 [39] - 设计目标从拟合转向泛化:激活函数的设计不仅为了优化梯度流动,其形状直接影响模型的归纳偏置,引入周期性结构是为模型注入“世界规律循环往复”的偏置 [40] - 预示AI设计AI的未来:这项研究表明,在神经网络最基础的组件层面仍有巨大创新空间,未来的AI模型其底层算子可能将由AI自己书写 [42]
像挖币一样挖激活函数?DeepMind搭建「算力矿场」,暴力搜出下一代ReLU
机器之心·2026-02-07 12:09