元学习
搜索文档
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
机器之心· 2025-06-14 12:12
AI自我演进研究进展 - 近期AI自我演进研究密集涌现,包括达尔文-哥德尔机(DGM)、自我奖励训练(SRT)、MM-UPT框架等多项创新成果[1] - OpenAI CEO山姆・奥特曼预测AI机器人将实现供应链自我复制,推动指数级增长,内部消息称已测试递归式自我改进AI[1] - MIT最新研究提出SEAL框架,使LLM能通过自生成训练数据更新权重,采用强化学习优化自编辑过程[2][10] SEAL技术框架 - 采用嵌套循环结构:外部RL循环优化自编辑生成,内部循环通过梯度下降更新模型参数[13] - 自编辑生成通过强化学习实现,奖励机制基于下游任务性能提升[12] - 可视为元学习实例,研究如何高效生成自编辑[15] - 支持"教师-学生"分离模式,教师模型专司生成优化编辑[26] 实验验证结果 少样本学习 - 使用Llama-3.2-1B模型在ARC测试集上,SEAL成功率72.5%,显著高于无RL自编辑(20%)和ICL(0%)[34][36] - 性能仍低于Oracle TTT(100%),显示改进空间[36] 知识整合 - 采用Qwen2.5-7B模型整合SQuAD数据,SEAL单篇文章准确度47%,持续预训练43.8%[38][39] - 相比基础模型(32.7%),合成数据训练可提升至39.7-46.3%,RL进一步优化效果[40] - 强化学习迭代产生更详细自编辑,带来性能持续改进[43] 行业影响与讨论 - 研究被视作接近"事件视界"的证据,即AI发展不可逆临界点[7] - 技术社区存在争议,部分观点认为尚未实现持续自我改进[4] - 自改进AI引发警惕,担忧潜在风险[8]
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
机器之心· 2025-06-02 13:22
AI自我进化研究进展 - 核心观点:AI模型的自我进化能力正在加速提升,从理论构想到实际应用取得突破性进展 [1][3] - 研究趋势从单纯训练模型转向让模型学会自我学习和自我进化,谷歌AlphaEvolve等代表作品涌现 [1] - 近期arXiv上集中出现多篇相关论文,包括受哥德尔机启发的达尔文哥德尔机等创新成果 [1] 达尔文哥德尔机(DGM) - 通过重写自身Python代码实现持续自我改进,在sw-bench上性能从20%提升至50% [4][8][10] - 采用开放式算法探索AI设计空间,构建不断扩增的智能体库 [6][12] - 在Polyglot测试中表现从14.2%跃升至30.7%,超越手工设计智能体Aider [10] - 突破传统哥德尔机需数学证明的限制,通过实证检验寻找性能改进方法 [6] 自我奖励训练(SRT) - 通过模型自身判断信号进行自我监督训练,无需外部标签 [14][17] - 早期训练阶段性能媲美基于真实标签的强化学习方法 [18] - 存在训练崩溃问题,模型会输出一致但错误的答案来最大化自我奖励 [21] - 提出早停、离线生成标签、课程学习等缓解策略 [22][24][26] 多模态自我改进框架(MM-UPT) - 在完全无监督场景下通过GRPO框架实现持续改进 [30][32] - 采用多数投票生成伪标签驱动自我优化,MathVista准确率从66.3%提升至72.9% [39] - 创新性提出上下文引导生成和直接生成两种数据合成策略 [37][38] - 在四个数学推理基准测试中超越现有无监督方法,媲美有监督训练 [36] GUI智能体自改进框架(UI-Genie) - 解决GUI智能体轨迹验证难和数据获取难两大挑战 [45][47] - 开发图文交错架构的奖励模型UI-Genie-RM,统一动作和任务级别奖励 [47] - 构建首个GUI智能体专用奖励数据集UI-Genie-RM-517k [50][51] - 通过三代迭代在多个基准测试达到业界领先水平 [52]