深度学习

搜索文档
经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
机器之心· 2025-06-03 14:26
深度学习激活函数研究 - 当前深度学习领域对激活函数的研究已成为独立方向,GELU、SELU和SiLU等函数因平滑梯度和卓越收敛特性成为热门选择[2] - 经典ReLU函数虽因简洁性和稀疏性广受青睐,但存在"死亡ReLU问题",即神经元输出恒为0时梯度也为0无法恢复[3] - 为解决该问题已出现多种改进线性单元函数,包括LeakyReLU、PReLU、GELU等,通过为负预激活值引入非零激活提供不同权衡[3] SUGAR方法创新 - 研究提出SUGAR方法,前向传播使用标准ReLU保持优势,反向传播时替换ReLU导数为非零连续替代梯度函数[3] - 该方法可在保持ReLU原始前向行为的同时避免梯度为零问题,从而复活死神经元[4] - 设计了两种新型替代梯度函数:B-SiLU(Bounded SiLU)和NeLU(Negative slope Linear Unit),可无缝集成各种模型[5] 性能提升表现 - SUGAR结合B-SiLU时,VGG-16在CIFAR-10和CIFAR-100测试准确率分别提升10和16个百分点,ResNet-18分别提升9和7个百分点[6] - 在CIFAR-10数据集上,B-SiLU使ResNet-18性能从76.76%提升到86.42%,VGG-16从78.50%提升到88.35%[16] - 在CIFAR-100数据集上,B-SiLU使ResNet-18准确率从48.99%跃升至56.51%,VGG-16从48.73%提升至64.47%[18] 技术实现细节 - SUGAR方法将FGI(Forward gradient injection)应用于具有平滑替代函数的ReLU网络[8] - 替代函数选择灵活,可兼容当前最先进的各类激活函数如ELU、GELU、SiLU等[8] - B-SiLU函数结合自门控特性和可调下限参数,数学表达式为(x+α)·σ(x)-α/2,其中α=1.67[13] 实验验证结果 - 在Swin Transformer和Conv2NeXt等现代架构上评估显示SUGAR具有良好的适应性和有效性[9] - 对VGG-16层激活分析表明,应用SUGAR时激活分布明显变化,促进更稀疏表示[9] - 在Conv2NeXt上,SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型[22]
机器学习系列之九:Mamba-MoE:风险中性化与多模型融合
东北证券· 2025-05-29 15:41
量化模型与构建方式 1. **模型名称:Mamba-MoE** - **模型构建思路**:通过Mamba架构高效提取时间序列特征,结合混合专家模型(MoE)进行多模型融合,同时引入线性与非线性的风险约束以降低风险暴露[2][3][44]。 - **模型具体构建过程**: 1. **任务一(Alpha因子生成)**:使用Mamba模块处理股票特征序列(维度为`(batch_size, window_length, feature_num)`),通过卷积和SSM(选择性状态空间模型)提取时序特征,输出Alpha因子[27][30][32]。 - SSM离散化公式: $$\bar{A}=\exp(\Delta A),$$ $$\bar{B}=(\Delta A)^{-1}(\exp(\Delta A)-I)\Delta B.$$ 2. **任务二(非线性风险因子生成)**:构建异质图(节点为股票风险因子,边包括同行业关联和高相似度关联),通过图卷积生成非线性风险因子[47][48]。 3. **损失函数**:结合Alpha因子与风险因子的相关性惩罚项: $$L=MSE(\hat{y},y_1)+MSE(\hat{r},y_2)+\frac{\alpha}{d_R+1}\sum_{i=1}^{d_R+1}\rho(\hat{y},R_i)^2.$$ - **模型评价**:双任务学习显著降低风险暴露,提升因子稳定性;MoE融合增强模型泛化性[53][56][72]。 2. **模型名称:Mamba-10与Mamba-5** - **构建思路**:分别以10日和5日收益为标签训练模型,通过交叉验证生成多个子模型,等权或MoE融合[98][99]。 - **具体构建**:5折交叉验证扩展窗口训练,MoE路由器结合股票特征与市场特征动态加权[98][99]。 --- 量化因子与构建方式 1. **因子名称:Mamba-MoE合成因子** - **构建思路**:融合Mamba-5和Mamba-10的多模型输出,结合风险中性化约束[103][137]。 - **具体构建**: - 对Alpha因子进行行业市值中性化处理。 - 通过MoE加权合成,路由器输入包括股票特征和市场特征(如指数收益率、VIX等)[98][99]。 - **因子评价**:稳定性优于单模型,对市值暴露控制较好,但对低波动和低流动性有一定暴露[103][137]。 2. **因子名称:非线性风险因子** - **构建思路**:捕捉风险因子间非线性交互及股票关联信息[44][48]。 - **具体构建**:基于CNE6风险因子构建异质图,通过GNN生成非线性风险因子[48][49]。 --- 模型的回测效果 1. **Mamba-MoE模型** - Rank IC:13.22%,ICIR:1.28,多头年化收益:33.01%,多空Sharpe Ratio:9.25[103][137]。 - 沪深300增强年化超额收益:9.02%,跟踪误差:4.26%[156]。 2. **Mamba-10模型(双任务)** - Rank IC:12.83%,ICIR:1.28,多空最大回撤:11.71%[56][72]。 3. **行业风格中性化测试** - 双任务设定下Rank IC衰减至8.81%,但多空Sharpe Ratio仍达11.49[72]。 --- 因子的回测效果 1. **Mamba-MoE合成因子** - 全市场十分组测试:多空年化收益125.32%,波动率13.55%[103]。 - 分域测试(中证1000):Rank IC 11.12%,多空Sharpe Ratio 7.17[137]。 2. **非线性风险因子** - 与流动性因子相关性:-20.74%(双任务)[78][79]。 --- 关键创新点 - **风险中性化**:通过损失函数直接约束风险暴露,避免组合优化时的信号扭曲[44][50]。 - **多模型融合**:交叉验证与MoE集成缓解分布漂移问题,提升稳健性[2][98][99]。 - **高效计算**:Mamba的线性复杂度优于Transformer,支持并行训练[23][31]。
遥感织就“智慧网”,豇豆产业“节节高”
南方农村报· 2025-05-29 15:34
遥感智能识别技术应用 - 广东省农业技术推广中心在阳江市、江门市举办豇豆无人遥感智能识别技术演示活动,探索产业发展新路径[5][6][7] - 技术基于航空摄影测量与图像处理,通过无人机获取厘米级高精度影像,结合AI深度学习构建语义分割模型,识别准确度超95%[18][19][20][21] - 配套数据可视化系统实现种植面积精准统计,形成从数据采集到分析展示的闭环管理[23][24][25] 豇豆产业现状与痛点 - 豇豆是我国重要蔬菜作物,广东种植规模持续扩大,但传统人工巡查存在效率低、精准度不足问题[15][16] - 遥感技术可破解产业痛点,提升管理效率,为提质增效提供科技支撑[17][25] 政策与科技协同发展 - 阳江市强调发挥农业科技特派员作用,推广绿色防控技术,加强安全生产培训[31][32][33] - 江门市提出利用遥感无人机实现生产可视化监管,推动产业向智慧化、绿色化、品牌化转型[35][36] - 广东省农科院提出病虫害防治六点建议,包括预防为主、科学用药、遵守安全间隔期等[48][49][50] 数字化服务平台建设 - 推广"粤农友圈"平台,采用"数字化+精准化"模式,整合农技服务资源,实现农户技术指导与信息共享[55][56][57][58] - 平台有效推动农业科技成果转化与农户需求对接,构筑产业协同发展数字化支撑体系[57][59][60] 技术推广与产业展望 - 活动通过田间交流、技术演示等形式为豇豆产业提供新思路,未来将持续深化科技创新[62][63] - 遥感技术将助力豇豆产业迈向高质量发展新征程[63]
机器学习因子选股月报(2025年6月)-20250529
西南证券· 2025-05-29 13:15
量化模型与构建方式 1. **模型名称**:GAN_GRU模型 - **模型构建思路**:结合生成式对抗网络(GAN)和门控循环单元(GRU)的深度学习模型,通过GAN处理量价时序特征后,利用GRU进行时序编码生成选股因子[9][10] - **模型具体构建过程**: 1. **数据输入**:18个量价特征(如收盘价、成交量等),过去400天的数据,每5天采样一次,形成40×18的特征矩阵[13][14] 2. **GAN部分**: - **生成器(G)**:LSTM结构,输入噪声生成模拟量价特征,损失函数为: $$L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))]$$ - **判别器(D)**:CNN结构,区分真实与生成特征,损失函数为: $$L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$$ - 交替训练G和D直至收敛[20][23][26] 3. **GRU部分**:两层GRU(128,128)提取时序特征,后接MLP(256,64,64)输出预测收益pRet作为因子[18] 4. **数据处理**:时序去极值+标准化,截面标准化[14] - **模型评价**:通过对抗训练提升特征生成质量,保留时序特性,适配金融数据的高噪声环境[29][33] --- 量化因子与构建方式 1. **因子名称**:GAN_GRU因子 - **因子构建思路**:基于GAN_GRU模型输出的预测收益pRet,经行业市值中性化+标准化处理后作为选股因子[18][37] - **因子具体构建过程**: 1. 模型每半年滚动训练(6月30日/12月31日),预测未来半年收益[14] 2. 剔除ST股及上市不足半年的股票,保留有效样本[14] 3. 因子值=模型输出的pRet,截面排序后取前10%作为多头组合[37][44] --- 模型的回测效果 1. **GAN_GRU模型**: - **IC均值**:11.57%(全A股,2019/01-2025/05)[37] - **ICIR**:0.89[38] - **年化超额收益率**:25.01%[37] - **信息比率(IR)**:1.66[38] - **最大回撤**:27.29%[38] --- 因子的回测效果 1. **GAN_GRU因子**: - **近期IC(2025/05)**:-0.28%,近一年IC均值11.54%[37][38] - **行业表现**: - 当期IC前五行业:社会服务(30.15%)、国防军工(28.07%)、银行(25.31%)[39] - 近一年IC均值前五行业:建筑装饰(18.54%)、公用事业(18.14%)[39] - **多头组合超额收益**: - 当期最高行业:商贸零售(8.22%)、国防军工(7.15%)[42] - 近一年月均最高行业:石油石化(5.60%)、建筑材料(5.29%)[42] --- 多头组合示例(2025/05) - **前十个股**:顺威股份(家用电器)、博深股份(机械设备)、九典制药(医药生物)等[44][48] - **行业排名第一个股**:如顺威股份(家用电器)、盛剑科技(环保)等[44]
南开大学郑伟等开发蛋白结构预测新模型:AI+物理模拟,超越AlphaFold2/3
生物世界· 2025-05-26 16:38
蛋白质结构预测技术突破 - 南开大学郑伟教授团队开发了新型蛋白质结构预测工具D-I-TASSER,在CASP15比赛中表现优于AlphaFold2和AlphaFold3 [2][3] - D-I-TASSER成功预测了人类蛋白质组中19512个蛋白质,覆盖率达95%,能够折叠81%的蛋白质结构域和73%的全长序列 [3][12] - 该技术融合深度学习和物理模拟,实现了高精度的蛋白质结构和功能预测 [3] AlphaFold的局限性 - AlphaFold在多结构域预测方面存在短板,80%的人类蛋白质含多个结构域,传统方法常忽略域间相互作用 [6] - AlphaFold是静态模型,难以捕捉蛋白质动态变化,对缺乏同源序列的蛋白质预测能力骤降 [6] - 纯数据驱动方法可能丢失蛋白质折叠的底层物理规律 [6] D-I-TASSER技术创新 - 深度融合深度学习与物理模拟,整合多源信息并利用物理引擎迭代优化结构 [8] - 首创自动切割-独立预测-动态组装的流程,域内精度达0.858,较AlphaFold2提升2.8%,域间取向误差降低17% [8] - 采用升级版DeepMSA2搜索宏基因组数据库,多序列比对信息量提升6.75倍 [11] 技术性能表现 - 在CASP15盲测中,对困难靶标的预测精度比AlphaFold2高29.2% [11] - 成功解析超过3000个氨基酸残基的超大蛋白质,如新冠病毒刺突蛋白,捕捉开放/闭合双构象 [11] - 无序区域构象多样性比AlphaFold高59%,系统注释了ATP结合、铁硫簇组装等关键功能位点 [14][15] 当前挑战 - 对孤儿蛋白(同源序列<1%)预测精度降至0.67 TM-score [20] - 尚未涉及蛋白质复合体的结构预测 [20] - 计算耗时仍高于纯深度学习模型 [20]
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
量子位· 2025-05-23 14:14
中国,北京 允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月6-7日 6月6日,关于深度学习和强化学习的探讨,将在2025智源大会继续开展,如"双星交汇"般 的时空对话,总结过往、共探智能之谜的终极答案。 与此同时,推理大模型的兴起、开源生态的加速、具身智能的百花齐放,成为2025年AI发展 的关键词。DeepSeek掀起新的开源热潮,VLA等开源模型推动具身智能迅速演进,创新企 业不断涌现,构建起多元而活跃的AI产业生态。 第七届北京智源大会 将于2025年 6月6日至7日 在中关村国家自主创新示范区展示中心举 行。作为人工智能领域的顶级学术峰会,大会汇聚全球顶尖研究者,分享最新成果、洞察关 键趋势。自2019年创办以来,已有12位图灵奖得主参与,每年吸引200余位专家参会,联动 全球30多个国家和地区的50万从业者,被誉为"AI内行春晚"。 今年论坛,智源大会将围绕人工智能 基础理论、应用探索、产业创新、可持续发展 四大主 题,设立近20场专题论坛,涵盖 深度推理模型、多模态模型、具身智能与人形机器人、自 主智能体、下一代AI路径探索、脑启发、AI for Science (AI4S) ...
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
机器之心· 2025-05-23 12:17
智源大会概况 - 2025年第七届北京智源大会将于6月6-7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者与产业领袖 [3][4] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200+专家参会,覆盖全球30+国家/地区的50万从业者 [3] - 2025年大会将迎来四位图灵奖得主,以及来自MIT、斯坦福、清华、北大等20+顶尖科研院所的科学家 [4][5] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,如2013年DeepMind的DQN和2016年AlphaGo的突破 [2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek和VLA模型推动具身智能演进)、创新企业涌现 [3] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等方向 [7][10] 产业应用与创新 - 应用探索涵盖具身智能与人形机器人、自主智能体、AI for Science(AI4S)、AI+理工/医学等方向 [8][10] - 产业创新板块设置大模型产业CEO论坛,邀请智谱AI、面壁智能、生数科技、爱诗科技等企业探讨演进路径 [5][10] - 智能驾驶、具身技术产业应用、从AI for Science到AI for Industry成为重点议题 [10] 特色活动与生态建设 - 首次推出"InnoVibe共创场",邀请热门论文作者分享成果,为Z世代AI青年提供展示平台 [5] - 设置AI互动展区展示前沿科技,同期举办PyTorch Day China、AI开源项目Tech Tutorial等系列活动 [5][12] - 可持续发展议题关注AI安全、青年科学家发展、开源生态建设等方向 [11][12]
吴恩达:如何在人工智能领域打造你的职业生涯?
36氪· 2025-05-22 19:00
人工智能编码能力 - 编码人工智能将成为未来社会的基础技能,类似于现在的读写能力 [1] - 人工智能和数据科学的应用范围远超传统软件工程,可在任何产生数据的场景中使用 [2] - 线性回归等AI模型可帮助小型企业优化运营,如披萨店的人员配备和供应链管理 [2] 人工智能职业发展路径 - 职业发展三步骤:学习基础技能、从事项目工作、找到工作 [3] - 人工智能领域需要持续学习,技术更新速度比成熟领域更快 [3] - AI项目具有高度迭代性,项目管理面临特殊挑战 [4][5] 人工智能技术技能 - 机器学习基础技能包括理解各类模型和核心概念 [7] - 深度学习是机器学习的重要组成部分,需要掌握神经网络等知识 [7] - 关键数学领域包括线性代数、概率统计和微积分 [8] - 软件开发技能可显著增加就业机会 [8] 人工智能项目执行 - 识别业务问题而非AI问题是项目成功的第一步 [14] - 评估AI解决方案需考虑技术可行性和业务价值 [16] - 项目里程碑应包括机器学习指标和业务指标 [17] - 资源预算需涵盖数据、人员和集成支持等要素 [18] 人工智能求职策略 - 角色转换或行业转换可采取分步策略降低难度 [27] - 创业公司比大公司更易于实现角色转换 [28] - 信息面试是了解目标公司和角色的有效方式 [31][33] - 简历和项目组合是求职过程中的关键要素 [36] 人工智能职业成功要素 - 团队合作和沟通技巧对大型项目至关重要 [43] - 建立职业网络和社区比单纯社交更有价值 [43] - 良好习惯和纪律性是长期成功的保障 [45] - 利他主义态度有助于个人职业发展 [46]
吴恩达:如何在人工智能领域打造你的职业生涯?
腾讯研究院· 2025-05-22 17:35
1.编码人工智能是新的读写能力 2.职业生涯发展的三个步骤 3.学习有前途的人工智能职业的技术技能 吴恩达 加州斯坦福大学计算机科学系和电机工程系的客座教授 本文节选自:How To Build Your Career in AI 【AI速读】 这篇文章探讨了如何在人工智能领域建立职业生涯。文章涵盖了从基础技能学习到项目实践,再到找到 合适工作的各个方面,并提供了具体的建议和步骤。以下是文章的主要内容: 4.你应该学习数学来获得人工智能的工作吗? 5.成功AI项目的范围 语言读写能力的演变:几百年前,语言读写能力并不普及,但随着时间的推移,它变得普遍并丰富 了社会。 代码的重要性:代码是人与机器之间最深入的交流方式,随着机器在日常生活中的重要性增加,编 程能力变得越来越重要。 人工智能和数据科学的应用:线性回归模型可以帮助披萨店老板优化需求预测和供应链管理。 学习基础技能:包括机器学习、深度学习、数学和软件开发。 从事项目工作:与缺乏AI专业知识的利益相关者合作,估计项目完成时间和投资回报。 找到一份工作:建立支持性社区,帮助你成长和找到工作。 基础机器学习技能:线性回归、逻辑回归、神经网络等。 深度学习:了 ...
高频选股因子周报(20250512- 20250516):深度学习因子空头端失效,多头端强势,AI增强组合继续维持正收益-20250520
国泰海通证券· 2025-05-20 19:07
量化因子与构建方式 1. **因子名称**:日内高频偏度因子 - **构建思路**:通过捕捉股票日内收益分布的偏度特征来选股[4][10] - **具体构建过程**:计算日内收益率的三阶矩,公式为: $$Skew = \frac{E[(r-\mu)^3]}{\sigma^3}$$ 其中,\( r \)为日内收益率,\( \mu \)为均值,\( \sigma \)为标准差[10] - **评价**:历史IC为0.027,2025年IC提升至0.057,多头端稳定性较好[6] 2. **因子名称**:日内下行波动占比因子 - **构建思路**:衡量下行波动在总波动中的占比,反映风险不对称性[4][13] - **具体构建过程**:计算下行波动与总波动的比值: $$DownVolRatio = \frac{\sum_{r_t<0}(r_t-\mu)^2}{\sum(r_t-\mu)^2}$$[13] - **评价**:2025年多空收益达11.63%,但近期表现较弱[6] 3. **因子名称**:开盘后买入意愿占比因子 - **构建思路**:统计开盘后买方主动成交占比,捕捉资金流向[4][19] - **具体构建过程**:计算开盘30分钟内买方成交额占比: $$BuyRatio = \frac{V_{buy}}{V_{total}}$$[19] - **评价**:2025年周胜率达15/20,多头超额收益显著[7] 4. **因子名称**:改进GRU(50,2)+NN(10)因子 - **构建思路**:结合门控循环单元(GRU)和神经网络(NN)的深度学习模型[4][59] - **具体构建过程**:使用50天历史数据输入GRU层,2层隐藏层后接10层全连接NN[59] - **评价**:2025年多空收益17.68%,但多头超额收益为负[9] 5. **因子名称**:多颗粒度模型-5日标签因子 - **构建思路**:基于双向AGRU训练的多时间颗粒度预测模型[61][64] - **具体构建过程**:融合5日收益率标签数据训练,输出股票排序[64] - **评价**:2025年多空收益28.3%,表现最优[9] 因子回测效果 | 因子名称 | IC(2025) | 多空收益(2025YTD) | 多头超额收益(2025YTD) | 周胜率(2025) | |------------------------------|----------|-------------------|-----------------------|--------------| | 日内高频偏度因子 | 0.057 | 14.17% | 3.26% | 13/20 | | 开盘后大单净买入占比因子 | 0.034 | 12.01% | 6.26% | 16/20 | | 改进GRU(50,2)+NN(10)因子 | 0.039 | 17.68% | -2.08% | 18/20 | | 多颗粒度模型-10日标签因子 | 0.067 | 26.67% | 9.41% | 16/20 | 量化模型与构建方式 1. **模型名称**:中证500 AI增强宽约束组合 - **构建思路**:基于多颗粒度模型因子,叠加宽泛风险约束[67][68] - **具体构建过程**:目标函数为: $$max\sum\mu_{i}w_{i}$$ 约束条件包括个股权重≤1%、行业偏离≤1%、换手率约束等[68] - **评价**:严约束组合2025年超额收益3.53%,回撤控制更优[74][79] 模型回测效果 | 模型名称 | 上周收益 | 5月收益 | 2025YTD收益 | 周胜率 | |------------------------------|----------|---------|-------------|--------| | 中证1000 AI增强严约束组合 | 1.16% | 2.33% | 10.89% | 14/20 | | 中证500 AI增强宽约束组合 | 1.17% | 2.29% | 6.18% | 13/20 |