Meta重磅:让智能体摆脱人类知识的瓶颈,通往自主AI的SSR级研究

文章核心观点 - Meta公司提出并验证了一种名为SSR(自对弈SWE-RL)的新方法,旨在训练能够超越人类专家水平的超级智能软件智能体[1] - 该方法的核心创新在于使大型语言模型智能体能够通过与真实代码库的交互,自主生成学习经验,从而摆脱对昂贵、有限且可能存在偏差的人类标注训练数据的依赖[1][22] - 实验结果表明,SSR方法在软件工程基准测试上展现出稳定而持续的自我提升能力,性能显著优于依赖人工数据的传统强化学习方法,为开发真正自主的人工智能系统开辟了新的可能性[17][21] 研究方法与框架 - SSR借鉴了AlphaGo等自对弈系统的成功经验,提出了一条通往超智能软件智能体的训练途径[2] - 该方法几乎不依赖人工数据,仅假设能够访问带有源代码与依赖环境的沙盒化代码仓库,而不需要任何人工标注的issue或测试用例[4] - 核心思想是让同一个LLM策略扮演两个角色:Bug注入智能体和Bug修复智能体,通过一个持续循环的自对弈过程来自我进化[6][8] - Bug注入智能体负责在原始代码库中人为引入可复现的Bug,而Bug修复智能体则负责生成补丁来修复这些Bug[9][11] - 两个角色的奖励信号共同作用,用于联合更新底层的LLM策略模型[12] 实验结果与性能 - 研究团队在SWE-bench Verified与SWE-Bench Pro两个基准测试上对SSR进行了系统评估[14] - 实验结果显示,SSR在完全没有任务相关训练数据的情况下,在整个训练过程中表现出稳定而持续的自我提升能力[17] - 在SWE-bench Verified与SWE-Bench Pro基准测试上,SSR分别提升了+10.4与+7.8个百分点,并持续超越依赖人工数据的基线方法[17] - 消融实验表明,仅进行Bug注入或仅进行Bug修复的训练都会降低性能,而自我对弈过程(同时生成和解决Bug)是模型实现长期自我提升的关键[19][20] 行业意义与前景 - SSR代表着在开发能够无需直接人工监督进行学习和改进的真正自主人工智能系统方面迈出了重要一步[21] - 该方法解决了当前人工智能开发中根本性的可扩展性限制,为将AI训练扩展到人类策划数据集之外开辟了新的可能性[22] - SSR的自生成课程有可能使训练在比目前传统方法更可行的问题上,数量级地更多样化和更具挑战性[22] - 该研究表明,未来的软件智能体或将能够在真实代码仓库中自主获取海量学习经验,最终发展为在系统理解、复杂问题求解乃至从零构建全新软件方面超越人类能力的超级智能系统[25]

Meta重磅:让智能体摆脱人类知识的瓶颈,通往自主AI的SSR级研究 - Reportify