文章核心观点 - 研究提出了一种名为赫胥黎-哥德尔机的新型自我改进人工智能体,其核心创新在于通过谱系元生产力指标来近似实现理论上的哥德尔机,有效解决了短期性能与长期自我改进潜力之间的脱节问题 [1][6][10] - 该机器在SWE-bench和Polyglot等软件工程基准测试中,不仅超越了现有的自我改进编程方法,而且达到了与最佳人工设计智能体相当的人类水平表现,同时展现出更高的计算效率和强大的跨模型泛化能力 [7][32][35][37] 理论基础与模型演进 - 哥德尔机是一种理论上的通用任务求解器,能通过形式证明来最优地执行自我改进,但其实现受限于实际资源消耗和单次生命等现实约束 [11][12] - 赫胥黎-哥德尔机是哥德尔机的一种实践近似,其核心思想是利用元生产力来衡量智能体提升自我改进能力的潜力,并通过估计谱系元生产力来指导搜索 [10][17][20] 核心创新:谱系元生产力 - 研究发现了“元生产力-性能不匹配”现象,即智能体当前的基准测试性能与其真正的自我改进潜力之间存在脱节 [4][20] - 提出了谱系元生产力指标,通过聚合一个智能体所有后代的性能来衡量其长期潜力,而非仅看其自身分数 [4][18] - HGM的CMP估计量与真实CMP的相关性显著更强,在SWE-Verified-60和Polyglot上的加权相关系数分别达到0.778和0.626,远超对比方法SICA和DGM [27][31] 算法框架与策略 - HGM框架包含三个子策略:扩展策略、评估策略和选择策略 [21][24] - 扩展策略使用谱系中智能体经验性能的加权平均值来估计CMP,为效用更高的智能体分配更大权重 [22] - 评估策略优先选择得分更高的智能体,选择策略则借鉴无限臂赌博机思想,平衡探索新智能体与利用已知智能体 [24][25][30] 性能表现与效率 - 在SWE-Verified-60基准测试中,HGM发现的智能体取得56.7%的最高准确率,在Polyglot基准测试中以30.5%的准确率领先 [34][36] - HGM展现出极高的计算效率,在Polyglot上比DGM快6.86倍,比SICA快1.65倍;在SWE-Verified-60上比DGM快2.38倍 [33][34][36] - HGM仅消耗517小时CPU时间即在SWE-Verified-60上取得最佳性能,远低于DGM的1231小时 [34] 泛化能力与人类水平表现 - HGM发现的智能体在SWE-Lite基准测试的过滤集和标准集上分别取得40.1%和49.0%的准确率,优于其初始版本的34.8%和44.0% [35][37] - 当骨干模型从GPT-5-mini替换为GPT-5时,该智能体在SWE-Lite标准集上取得57%的准确率,与排行榜上最佳人工设计智能体SWE-agent的56.7%相当 [37][39] - 在官方SWE-Bench Lite排行榜上,HGM智能体的性能超越了所有其他经过官方结果验证的智能体,在筛选测试集上仅比最佳模型少解决一个任务 [40]
LSTM之父Jürgen再突破,「赫胥黎-哥德尔机」让AI学会自己进化
机器之心·2025-10-28 14:29