Workflow
激活函数
icon
搜索文档
经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
机器之心· 2025-06-03 14:26
深度学习激活函数研究 - 当前深度学习领域对激活函数的研究已成为独立方向,GELU、SELU和SiLU等函数因平滑梯度和卓越收敛特性成为热门选择[2] - 经典ReLU函数虽因简洁性和稀疏性广受青睐,但存在"死亡ReLU问题",即神经元输出恒为0时梯度也为0无法恢复[3] - 为解决该问题已出现多种改进线性单元函数,包括LeakyReLU、PReLU、GELU等,通过为负预激活值引入非零激活提供不同权衡[3] SUGAR方法创新 - 研究提出SUGAR方法,前向传播使用标准ReLU保持优势,反向传播时替换ReLU导数为非零连续替代梯度函数[3] - 该方法可在保持ReLU原始前向行为的同时避免梯度为零问题,从而复活死神经元[4] - 设计了两种新型替代梯度函数:B-SiLU(Bounded SiLU)和NeLU(Negative slope Linear Unit),可无缝集成各种模型[5] 性能提升表现 - SUGAR结合B-SiLU时,VGG-16在CIFAR-10和CIFAR-100测试准确率分别提升10和16个百分点,ResNet-18分别提升9和7个百分点[6] - 在CIFAR-10数据集上,B-SiLU使ResNet-18性能从76.76%提升到86.42%,VGG-16从78.50%提升到88.35%[16] - 在CIFAR-100数据集上,B-SiLU使ResNet-18准确率从48.99%跃升至56.51%,VGG-16从48.73%提升至64.47%[18] 技术实现细节 - SUGAR方法将FGI(Forward gradient injection)应用于具有平滑替代函数的ReLU网络[8] - 替代函数选择灵活,可兼容当前最先进的各类激活函数如ELU、GELU、SiLU等[8] - B-SiLU函数结合自门控特性和可调下限参数,数学表达式为(x+α)·σ(x)-α/2,其中α=1.67[13] 实验验证结果 - 在Swin Transformer和Conv2NeXt等现代架构上评估显示SUGAR具有良好的适应性和有效性[9] - 对VGG-16层激活分析表明,应用SUGAR时激活分布明显变化,促进更稀疏表示[9] - 在Conv2NeXt上,SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型[22]