激活函数 - 财报，业绩电话会，研报，新闻

激活函数

搜索文档

机器之心· 2025-06-03 14:26

深度学习激活函数研究 - 当前深度学习领域对激活函数的研究已成为独立方向，GELU、SELU和SiLU等函数因平滑梯度和卓越收敛特性成为热门选择[2] - 经典ReLU函数虽因简洁性和稀疏性广受青睐，但存在"死亡ReLU问题"，即神经元输出恒为0时梯度也为0无法恢复[3] - 为解决该问题已出现多种改进线性单元函数，包括LeakyReLU、PReLU、GELU等，通过为负预激活值引入非零激活提供不同权衡[3] SUGAR方法创新 - 研究提出SUGAR方法，前向传播使用标准ReLU保持优势，反向传播时替换ReLU导数为非零连续替代梯度函数[3] - 该方法可在保持ReLU原始前向行为的同时避免梯度为零问题，从而复活死神经元[4] - 设计了两种新型替代梯度函数：B-SiLU（Bounded SiLU）和NeLU（Negative slope Linear Unit），可无缝集成各种模型[5] 性能提升表现 - SUGAR结合B-SiLU时，VGG-16在CIFAR-10和CIFAR-100测试准确率分别提升10和16个百分点，ResNet-18分别提升9和7个百分点[6] - 在CIFAR-10数据集上，B-SiLU使ResNet-18性能从76.76%提升到86.42%，VGG-16从78.50%提升到88.35%[16] - 在CIFAR-100数据集上，B-SiLU使ResNet-18准确率从48.99%跃升至56.51%，VGG-16从48.73%提升至64.47%[18] 技术实现细节 - SUGAR方法将FGI（Forward gradient injection）应用于具有平滑替代函数的ReLU网络[8] - 替代函数选择灵活，可兼容当前最先进的各类激活函数如ELU、GELU、SiLU等[8] - B-SiLU函数结合自门控特性和可调下限参数，数学表达式为(x+α)·σ(x)-α/2，其中α=1.67[13] 实验验证结果 - 在Swin Transformer和Conv2NeXt等现代架构上评估显示SUGAR具有良好的适应性和有效性[9] - 对VGG-16层激活分析表明，应用SUGAR时激活分布明显变化，促进更稀疏表示[9] - 在Conv2NeXt上，SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型[22]