分布外泛化
搜索文档
像挖币一样挖激活函数?DeepMind搭建「算力矿场」,暴力搜出下一代ReLU
机器之心· 2026-02-07 12:09
核心观点 - 谷歌DeepMind利用其开发的AlphaEvolve系统,在无限的Python函数空间中自动搜索并发现了全新的神经网络激活函数,这些函数在分布外泛化能力上超越了ReLU和GELU等现有标准函数,标志着AI设计AI的方法论革新 [2][4] 研究方法论革新 - 核心工具是AlphaEvolve,一个由LLM驱动的进化编码系统,它直接编写和修改Python代码来探索激活函数,突破了传统神经架构搜索受限于预定义数学算子的限制 [8][11] - 采用“微型实验室”策略,使用专门设计的合成数据来优化分布外泛化能力,避免了在ImageNet等大型数据集上进行昂贵搜索,实现了用小数据撬动大智慧 [4][14][40] - 系统的适应度函数基于分布外测试数据的验证损失,迫使模型学习举一反三,从而捕捉更本质的归纳偏置 [17][18] 新发现的激活函数及其特性 - 发现表现最佳的激活函数普遍遵循“标准激活函数+周期性扰动项”的通用公式,例如GELUSine和GELU-Sinc-Perturbation [25] - **GELUSine**:在GELU基础上增加了正弦项,引入周期性“摆动”以帮助优化过程逃离局部极小值 [26] - **GELU-Sinc-Perturbation**:公式为 `GELU(x) * (1 + 0.5 * sinc(x))`,在保留GELU渐近行为的同时,在原点附近引入了受控的非线性复杂性 [26][27] - **GMTU (Gaussian-Modulated Tangent Unit)**:结合了Tanh、高斯衰减和线性泄漏项,形状类似调制波,但计算成本较高 [28] - **湍流激活函数 (Turbulent)**:在合成数据上测试损失极低(29.8 ×10⁻³),但严重过拟合,迁移到真实任务时表现不佳,凸显了逐点激活函数的鲁棒性价值 [21][29] 在真实任务上的性能表现 - **在算法推理任务(CLRS-30)上表现出色**:GELU-Sinc-Perturbation取得了0.887的测试分数,显著优于ReLU的0.862和GELU的0.874 [34][36] - **在标准视觉任务上保持竞争力**:在ImageNet上,GELUSine和GELU-Sinc-Perturbation的Top-1准确率约74.5%,与GELU持平并远超ReLU的73.5% [34][36] - **周期性扰动的有效性**:周期性函数允许模型在训练域内“存储”频率信息,并在外推时通过周期性结构“检索”,这被认为是一种隐式的频率分析,有助于捕捉数据的复杂结构 [35] 对行业与AI研发的启示 - **代码即搜索空间**:利用LLM直接编写代码作为搜索空间,比预定义数学算子更灵活强大,LLM生成的函数甚至能提供人类可读的设计思路解释 [39] - **设计目标从拟合转向泛化**:激活函数的设计不仅为了优化梯度流动,其形状直接影响模型的归纳偏置,引入周期性结构是为模型注入“世界规律循环往复”的偏置 [40] - **预示AI设计AI的未来**:这项研究表明,在神经网络最基础的组件层面仍有巨大创新空间,未来的AI模型其底层算子可能将由AI自己书写 [42]
AAAI 2026重磅!原力无限攻克具身智能“泛化”顽疾,定义因果AI新范式
具身智能之心· 2025-12-23 08:03
行业核心挑战 - 机器人实现广泛应用的关键在于其“泛化能力”,即适应新环境、新任务的能力[1] - 当前行业的核心痛点是“分布外泛化”问题,即机器人在训练场景外表现不佳,成为具身智能落地的最大障碍[3][4] - 传统AI与强化学习模型的问题在于只学会了表面的“相关性”,而未能掌握事物背后的“因果性”,导致其容易受到环境噪音(如背景颜色、光照变化)的干扰,无法举一反三[2][5][7] 技术核心突破 - 原力无限与多所大学联合完成的研究《DSAP: Enhancing Generalization in Goal-Conditioned Reinforcement Learning》被顶级人工智能会议AAAI 2026收录,标志着因果推理技术被成功引入具身智能领域[2] - 研究首次提出基于“因果图”的结构感知代理框架,该框架强制AI区分“状态无关变量”(如背景颜色、光照)和“状态相关变量”(如物体形状、位置),从而构建结构化的因果世界观[9][10] - 通过引入“解耦结构感知代理”,算法在数学层面切断了环境噪音对决策干扰的“虚假关联”,使AI决策专注于核心因果因素[12][13] - 算法学习到的因果结构与真实物理规律高度一致,证明其具备了结构化认知能力[15] - 在Alchemy和机械臂操作等复杂任务的验证中,搭载DSAP算法的智能体在面临全新环境配置时表现出惊人的稳定性[16][18] - 在视觉背景剧烈变化的测试中,DSAP的成功率显著优于GoFar、CORL等现有最先进算法[19] - 在多种分布外测试设置下,DSAP算法的平均回报率显著高于其他基准算法,展现出强大的泛化稳定性[21] - 这证明引入因果机制后,机器人开始具备初步的逻辑推理能力,而不仅是像素级的模式匹配[22] 公司战略与产学研协同 - 该顶会论文是产学研深度融合的典范,原力无限不仅提供了关键场景认知,也验证了其核心技术战略的前瞻性[24][25] - 公司研究团队致力于构建具有“因果世界模型”能力的超级大脑,DSAP所探讨的“因果泛化”是公司Hyper-VLA大模型进化的必经之路[25] - 通过与香港大学、澳门大学、武汉大学等顶尖学术力量合作,公司构筑了开放、前沿的科研生态系统[25] - “高校理论创新+企业场景验证”的模式加速了前沿算法的验证周期,使公司的技术底座始终保持在学术界最前沿[25]
因子选股系列之一一五:DFQ-diversify:解决分布外泛化问题的自监督领域识别与对抗解耦模型
东方证券· 2025-05-07 15:45
量化模型与构建方式 1. **模型名称:DFQ-Diversify** - **模型构建思路**:通过自监督领域识别与对抗训练机制,实现标签预测任务与领域识别任务的显式解耦,以增强模型的分布外泛化能力[2][3][10] - **模型具体构建过程**: 1. **核心模块**: - **update_d模块**:执行领域识别任务,通过对抗机制抑制标签信息学习。包含特征提取器(GRU)、领域瓶颈层(dbottleneck)、领域分类器(dclassifier)和标签对抗判别器(ddiscriminator)。梯度反转层用于抑制标签预测能力[23][25][27] - **set_dlabel模块**:动态更新样本的潜在领域标签,通过无监督聚类优化领域划分[28][29] - **update模块**:执行标签预测任务,通过对抗机制抑制领域信息依赖。包含共享特征提取器、标签瓶颈层(bottleneck)、标签分类器(classifier)和领域对抗判别器(discriminator)[30][32][33] 2. **对抗训练机制**: - 模块间对抗:update_d与update共享特征提取器,目标相反形成动态博弈[43][44] - 模块内双损失:update_d优化领域预测损失(交叉熵)和标签对抗损失(MSE);update优化标签预测损失(MSE)和领域对抗损失(交叉熵)[45][46] - 梯度反转层:在反向传播中反转梯度符号,实现特征解耦[47][48] 3. **动态领域划分**:通过自监督聚类在时间和截面维度识别潜在领域,满足领域内一致性高、领域间差异显著的标准[34][35][36] - **模型评价**:相比Factorvae-pro模型,Diversify无需预设环境变量,通过动态领域划分和对抗训练显著提升泛化能力,尤其在复杂市场环境中表现稳健[10][50][53] 2. **模型名称:GRU基础模型** - **模型构建思路**:作为对比基准,采用标准GRU结构进行标签预测,无领域解耦设计[55] - **模型具体构建过程**: - 输入60个量价特征,通过GRU层提取时序特征后直接预测20日收益率[55] --- 模型的回测效果 1. **DFQ-Diversify模型** - **中证全指股票池(2020-2024)**: - IC:12.41% | IC_IR:1.24 | rankIC:14.73% | rankIC_IR:1.29 - 多头年化超额收益:32.33% | 最大回撤:-7.55% | 换手率:74.08%[55] - **沪深300增强组合**: - 信息比率(IR):1.89 | 年化超额收益:11.27%[6] - **中证500增强组合**: - 信息比率(IR):1.67 | 年化超额收益:12.19%[6] 2. **GRU基础模型** - **中证全指股票池(2020-2024)**: - IC:12.01% | IC_IR:1.20 | rankIC:14.11% | rankIC_IR:1.30 - 多头年化超额收益:26.44% | 最大回撤:-6.80% | 换手率:78.20%[55] --- 关键参数与对比 1. **独立瓶颈层效果**: - 独立dbottleneck和bottleneck的Diversify模型(IC 12.41%)优于共享瓶颈层(IC 10.99%)和无瓶颈层(IC 11.81%)[60] 2. **双路径训练优势**: - 双路径训练的Diversify(rankIC 14.73%)显著优于单路径合并训练(rankIC 14.01%)[61][62] 3. **领域数量选择**: - latent_domain_num=2时模型表现最优(IC 12.41%),过多领域数(如domain_num=5)导致性能下降(IC 10.92%)[84] --- 因子绩效表现(中性化后) 1. **中证全指股票池**: - 中性化因子IC:11.02% | rankIC:13.15% | 多头年化超额收益:28.19%[48] --- 领域可视化分析 1. **领域分布**: - 训练中领域=1的占比从51.24%升至58.09%,反映模型对领域结构的自适应学习[63][79] - 领域标签同时包含时序(同一股票领域归属随时间变化)和截面(同一时间不同股票领域差异)信息[71][75][77]