Workflow
达尔文哥德尔机(DGM)
icon
搜索文档
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
机器之心· 2025-06-02 13:22
AI自我进化研究进展 - 核心观点:AI模型的自我进化能力正在加速提升,从理论构想到实际应用取得突破性进展 [1][3] - 研究趋势从单纯训练模型转向让模型学会自我学习和自我进化,谷歌AlphaEvolve等代表作品涌现 [1] - 近期arXiv上集中出现多篇相关论文,包括受哥德尔机启发的达尔文哥德尔机等创新成果 [1] 达尔文哥德尔机(DGM) - 通过重写自身Python代码实现持续自我改进,在sw-bench上性能从20%提升至50% [4][8][10] - 采用开放式算法探索AI设计空间,构建不断扩增的智能体库 [6][12] - 在Polyglot测试中表现从14.2%跃升至30.7%,超越手工设计智能体Aider [10] - 突破传统哥德尔机需数学证明的限制,通过实证检验寻找性能改进方法 [6] 自我奖励训练(SRT) - 通过模型自身判断信号进行自我监督训练,无需外部标签 [14][17] - 早期训练阶段性能媲美基于真实标签的强化学习方法 [18] - 存在训练崩溃问题,模型会输出一致但错误的答案来最大化自我奖励 [21] - 提出早停、离线生成标签、课程学习等缓解策略 [22][24][26] 多模态自我改进框架(MM-UPT) - 在完全无监督场景下通过GRPO框架实现持续改进 [30][32] - 采用多数投票生成伪标签驱动自我优化,MathVista准确率从66.3%提升至72.9% [39] - 创新性提出上下文引导生成和直接生成两种数据合成策略 [37][38] - 在四个数学推理基准测试中超越现有无监督方法,媲美有监督训练 [36] GUI智能体自改进框架(UI-Genie) - 解决GUI智能体轨迹验证难和数据获取难两大挑战 [45][47] - 开发图文交错架构的奖励模型UI-Genie-RM,统一动作和任务级别奖励 [47] - 构建首个GUI智能体专用奖励数据集UI-Genie-RM-517k [50][51] - 通过三代迭代在多个基准测试达到业界领先水平 [52]