长短期记忆网络(LSTM)
搜索文档
大/小/微模型赋能先进制造:实践与思考
大连理工大学机械工程学院· 2026-02-26 13:15
报告行业投资评级 - 报告未明确给出对“AI赋能先进制造”行业的整体投资评级 [1][4][7] 报告的核心观点 - 人工智能已成为先进制造(AI4M)全生命周期技术体系重塑的核心驱动力,是工业4.0的关键技术,被世界主要工业强国列为重点发展布局方向 [8][12][14] - 根据参数规模,AI模型可分为大模型(>10M参数)、小模型(10k~10M参数)和微模型(<10k参数),它们在先进制造的工程材料、设计优化、加工装配、控制运维四大阶段中各有侧重,其中小模型和微模型是当前应用研究的主流 [82][85][86][87][160] - 在先进制造领域,AI模型的应用研究论文数量自2014年至2024年增长了约20倍,其中控制运维领域论文数量最多,设计优化领域相对较少,反映出领域知识与应用成熟度的差异 [159][160] AI4M的背景意义 - 先进制造是衡量国家科技发展水平、关乎国民经济和国防安全的重要标志,各国均推出国家级战略,如中国的《中国制造2025》、美国的《国家先进制造业战略》等 [8][10][11] - “AI4M”已成为工业4.0的核心技术,美国、德国、法国、日本、中国等主要工业国均在国家层面制定了AI发展战略,明确其在智能设计、智能制造等关键领域的优先地位 [12] AI4M的基础知识 - 人工智能发展历程经历了三次热潮与两次寒冬,当前正进入以大模型为核心的新阶段 [19][22][23] - AI模型可按多种维度分类,包括学习方式(监督/无监督/强化/迁移学习)、参数规模(大/小/微模型)、功能类型(感知/决策/生成型AI)和实时性要求(实时/近实时/离线AI) [28][29] - 人工智能(AI)、机器学习(ML)、深度学习(DL)和神经网络(ANN)是层层包含的关系,其中深度学习使用多层神经网络自动提取复杂数据的高层次特征 [31] AI4M的研究进展 - 报告详细阐述了多种AI模型在先进制造场景下的原理、计算复杂度和适用性,包括多项式拟合、浅层神经网络、深度学习神经网络(DNN)、卷积神经网络(CNN)、图神经网络(GNN)、长短期记忆网络(LSTM)、强化学习(RL)、主动学习(AL)和增量学习(IL) [37][44][46][48][56][58][63][66][69][73] - 互联网平台(如Bilibili日数据量约7.8 PB)与智能工厂(日数据量约2.0 TB)的数据量级比约为10^3~10^4:1,存在显著差异 [82][83] AI4M的案例展示 - **工程材料**:大模型如图神经网络GNoME发现了220万个新的稳定材料晶体结构,将材料发现效率提高一个数量级 [93][94];小模型/微模型如随机森林用于超材料设计,可大幅缩短研发周期 [96][97] - **设计优化**:物理信息神经网络(PINN)小模型可从5000个仿真云图中推断流体场 [104][105];Bi-LSTM小模型预测摩擦系数,均方误差较传统方法降低50%以上 [107][108];AI混合微模型对核电阀门性能预测精度>95% [110][111];动力学引导卷积循环网络小模型优化矿用电铲轨迹,规划时间<20ms,单斗能力≥150吨 [115][116];图神经网络小模型重构应力场/流场,精度≥99% [118][119] - **加工装配**:U-Net小模型实现CNC刀具毫秒级实时路径规划 [126][127];自编码器-孪生网络(AE-SNN)小模型实现工艺选择准确率89%,可制造性分析准确率100% [129][130];3DCNN-LSTM小模型预测加工路径精度达94% [133];CNN微模型预测焊接质量,R²达0.9879 [135][136];VGG大模型用于制造过程监控,分类准确性达95.58% [137][138] - **控制运维**:概率图模型小模型实现无人机结构健康实时监测 [145][146];机理-数据混合AI小模型在50毫秒内完成三维全场信息重构 [152][153];基于Transformer的“预训练+微调”大模型建立了通用智能运维新模式,普适性强 [155][156] - **大语言模型(LLM)设计优化评估**:报告评估了DeepSeek、豆包、Gemini、Grok、Kimi、ChatGPT等主流大模型在一维、二维、十维函数预测及单目标/多目标优化任务中的表现,发现LLM展现出作为智能调度器与方法集成器的潜力 [165][166][167][168][169][173] AI4M的瓶颈所在 - 报告内容未明确列出具体的瓶颈,该部分内容在提纲中出现但正文中未详细展开 [7][81] AI4M的科学问题 - 报告内容未明确列出具体的科学问题,该部分内容在提纲中出现但正文中未详细展开 [7][81] AI4M的发展方向 - 报告内容未明确列出具体的发展方向,该部分内容在提纲中出现但正文中未详细展开 [7][81] 思考与总结 - 报告内容未提供明确的思考与总结,该部分内容在提纲中出现但正文中未详细展开 [7][81]
LSTM之父Jürgen再突破,「赫胥黎-哥德尔机」让AI学会自己进化
机器之心· 2025-10-28 14:29
文章核心观点 - 研究提出了一种名为赫胥黎-哥德尔机的新型自我改进人工智能体,其核心创新在于通过谱系元生产力指标来近似实现理论上的哥德尔机,有效解决了短期性能与长期自我改进潜力之间的脱节问题 [1][6][10] - 该机器在SWE-bench和Polyglot等软件工程基准测试中,不仅超越了现有的自我改进编程方法,而且达到了与最佳人工设计智能体相当的人类水平表现,同时展现出更高的计算效率和强大的跨模型泛化能力 [7][32][35][37] 理论基础与模型演进 - 哥德尔机是一种理论上的通用任务求解器,能通过形式证明来最优地执行自我改进,但其实现受限于实际资源消耗和单次生命等现实约束 [11][12] - 赫胥黎-哥德尔机是哥德尔机的一种实践近似,其核心思想是利用元生产力来衡量智能体提升自我改进能力的潜力,并通过估计谱系元生产力来指导搜索 [10][17][20] 核心创新:谱系元生产力 - 研究发现了“元生产力-性能不匹配”现象,即智能体当前的基准测试性能与其真正的自我改进潜力之间存在脱节 [4][20] - 提出了谱系元生产力指标,通过聚合一个智能体所有后代的性能来衡量其长期潜力,而非仅看其自身分数 [4][18] - HGM的CMP估计量与真实CMP的相关性显著更强,在SWE-Verified-60和Polyglot上的加权相关系数分别达到0.778和0.626,远超对比方法SICA和DGM [27][31] 算法框架与策略 - HGM框架包含三个子策略:扩展策略、评估策略和选择策略 [21][24] - 扩展策略使用谱系中智能体经验性能的加权平均值来估计CMP,为效用更高的智能体分配更大权重 [22] - 评估策略优先选择得分更高的智能体,选择策略则借鉴无限臂赌博机思想,平衡探索新智能体与利用已知智能体 [24][25][30] 性能表现与效率 - 在SWE-Verified-60基准测试中,HGM发现的智能体取得56.7%的最高准确率,在Polyglot基准测试中以30.5%的准确率领先 [34][36] - HGM展现出极高的计算效率,在Polyglot上比DGM快6.86倍,比SICA快1.65倍;在SWE-Verified-60上比DGM快2.38倍 [33][34][36] - HGM仅消耗517小时CPU时间即在SWE-Verified-60上取得最佳性能,远低于DGM的1231小时 [34] 泛化能力与人类水平表现 - HGM发现的智能体在SWE-Lite基准测试的过滤集和标准集上分别取得40.1%和49.0%的准确率,优于其初始版本的34.8%和44.0% [35][37] - 当骨干模型从GPT-5-mini替换为GPT-5时,该智能体在SWE-Lite标准集上取得57%的准确率,与排行榜上最佳人工设计智能体SWE-agent的56.7%相当 [37][39] - 在官方SWE-Bench Lite排行榜上,HGM智能体的性能超越了所有其他经过官方结果验证的智能体,在筛选测试集上仅比最佳模型少解决一个任务 [40]
Yoshua Bengio,刚刚成为全球首个百万引用科学家!
机器之心· 2025-10-25 13:14
文章核心观点 - Yoshua Bengio成为Google Scholar上首位引用量超过100万的计算机科学家,其引用量达1,000,244次,这标志着人工智能领域从理论走向现实的二十年发展历程[1][7][48] - Bengio的学术成就与AI技术的发展曲线高度重合,其百万次引用是对AI改变世界的波澜壮阔历史的铭刻[5][7] - 作为深度学习领域的奠基人之一,Bengio在推动技术进步的同时,也积极承担社会责任,成为AI伦理与安全的重要倡导者[8][18][47] 学术成就与引用数据 - Yoshua Bengio的Google Scholar总引用量为1,000,244次,其中自2020年以来的引用量为723,853次,h-index为251,i10-index为977[1] - 其引用量最高的论文《Generative Adversarial Nets》被引104,225次,与Hinton、LeCun合著的《Deep learning》被引103,249次,两篇论文合计贡献了其总引用量的五分之一以上[1][21][33] - 引用量超过1万次的论文或著作有19篇,超过1000次的有96篇[21][34] - 深度学习“三巨头”中,Geoffrey Hinton和Yann LeCun的引用量分别为972,453次和约43万次[2][3] 关键技术贡献 - 2014年与Ian Goodfellow等人共同提出生成对抗网络,通过生成器与判别器的对抗训练框架开创了生成式AI的重要分支[24][25] - 2003年发表《A Neural Probabilistic Language Model》,首次引入“词嵌入”概念,为现代语言模型如BERT、GPT奠定基础[18] - 1997年与合作者引入长短期记忆网络,提升了神经网络处理序列数据的能力,为自然语言处理革命奠定了基础[18] - 2009年发表《Learning Deep Architectures for AI》,系统阐述深度学习理论,为训练更深层网络铺平道路[18][34] 行业影响与地位 - 与Geoffrey Hinton、Yann LeCun共同获得2018年图灵奖,被誉为“深度学习三巨头”,推动了AI技术从边缘走向世界中心的爆发[8][45] - 选择扎根蒙特利尔而非加入硅谷巨头,领导蒙特利尔学习算法研究所成为全球领先的AI研究机构,将蒙特利尔打造成全球AI中枢[16][17] - 其学术引用增长曲线与AI技术爆发曲线完美重合,百万次引用成为AI领域发展的里程碑事件[5][7] 当前研究动态与社会责任 - 现年61岁仍持续以第一作者身份发表研究,2025年在Science发表《Illusions of AI consciousness》并领导撰写AI安全国际报告[36][37][38] - 积极倡导AI伦理与安全,推动《蒙特利尔AI负责任发展宣言》,支持禁止“致命性自主武器”的国际条约,呼吁对强大AI系统建立监管护栏[18][19][27] - 发起非营利组织LawZero,旨在构建能够检测和阻止自主智能体有害行为的“诚实”AI系统[20][27]
建模市场与人机共振:李天成超越价格预测的认知框架
搜狐网· 2025-06-30 18:40
市场认知框架 - 市场不可被精确预测,目标是构建理解市场状态和短期演化方向的认知框架 [1] - 交易本质是在非平稳、高噪音随机过程中寻找期望收益为正的决策机会 [1] - 传统技术分析存在降维失真问题,忽略驱动价格的高维潜在空间 [1] 模型范式演进 - CNN可识别局部空间模式但缺乏对时间序列路径依赖的理解 [2] - LSTM能捕捉时序信息但假设信息沿单一时间线流动,与市场网络化结构矛盾 [3] - 需从序列依赖建模转向结构与时间联合依赖建模 [5] 市场关系拓扑计算 - 构建动态多关系类型的时态知识图谱,数学本质为高阶张量 [6] - 引入异构霍克斯过程建模事件流,量化历史事件对当前事件的增强效应 [6] - 通过最大化对数似然函数反解实体和关系类型的嵌入向量 [7] 人机共振机制 - 人类策略师角色是模型架构的先验设定者,提供对市场的认知和洞察 [9] - 先验概率来自对产业变迁和技术范式转移的理解,转化为模型因子权重 [10] - 决策框架追求数学期望长期为正,赚取认知系统与市场平均认知水平的差价 [11]