Workflow
鲁棒强化学习
icon
搜索文档
鲁棒强化学习赋能AI编程!破局企业数据噪声难题,同等算力训出更好模型 | 上交大&腾讯CodeBuddy
量子位· 2026-02-16 19:00
文章核心观点 - 上海交通大学、腾讯CodeBuddy等团队联合提出的GAPO方法,通过精准过滤训练数据中的噪声和异常值,并采用稳健的优势值估计方法,显著提升了代码大模型在真实复杂场景下的训练效率和准确性,解决了AI辅助编程工业化落地的关键瓶颈 [3][13][28] AI辅助编程行业面临的真实挑战 - AI辅助编程已成为软件开发的核心生产力,大语言模型深度融入代码编辑、调试与优化全流程 [3] - 企业使用真实复杂用户环境数据训练模型时面临核心问题:复杂上下文导致模型输出频繁出现异常,产生rollout噪声,进而造成奖励异常值,最终导致优势值估计不准确,严重拖累强化学习效果 [3][4] - 真实场景的代码编辑任务输入提示结构复杂,包含系统提示、当前代码、编辑历史、编辑范围与光标位置、用户提示等多层级信息,对模型理解能力要求极高 [4][5][8] - 真实训练数据显示,输入提示长度跨度从1,925到24,883字符,输出编辑长度从36到833字符,并覆盖Go、Python、Java等10种主流编程语言,其中Go语言任务占比最高,达37.71% [6][7] - 复杂上下文的多样性导致模型输出不确定性增加,常出现偏离需求的异常编辑,如遗漏逻辑、修改无关代码或生成语法错误,这些噪声在真实数据中呈常态而非个例 [5][8] - 传统分组相对RL方法依赖群体均值计算优势值,但真实数据奖励分布中,14.4%呈右偏、15.5%呈左偏,这种由异常值主导的分布偏斜导致优势值被系统性高估或低估 [9][10] - 不同编程语言和编辑场景的噪声特征差异大,传统方法的固定均值基准无法适应动态噪声,导致投入大量资源采集的真实数据难以提升模型效果,甚至可能使训练“越训越偏” [11][12] GAPO方法的技术原理与创新 - GAPO方法精准针对“复杂上下文→rollout噪声→优势值估计不准”的核心痛点,通过优化优势计算环节实现“即插即用”的突破 [13] - 第一步是锁定高信噪比区域以精准过滤异常值:该方法将问题转化为查找最高密度区间,通过滑动窗口算法在每个输入提示的奖励集合中找到覆盖默认0.5比例奖励点的最窄区间,该区间能最大程度排除异常值 [13][15] - 第二步是用中位数替代均值进行稳健的优势值估计:在筛选出的最高密度区间内,使用中位数作为自适应Q值基准,相较于均值,中位数对异常值不敏感,能更稳定地反映有效输出的奖励基准 [17][18] - 该方法将噪声纳入RL过程,使模型能获得更清晰的能力边界,从而更擅长处理复杂输入 [19] - 工程上,GAPO计算复杂度为O(n log n),滑动窗口扫描仅需O(n)时间,不会带来额外算力负担 [19] - 该方法仅修改优势计算函数,无需调整RL框架其他模块,可轻松集成到主流框架,适配企业基于真实复杂数据的训练流程,无需额外数据降噪预处理 [19] GAPO方法的实证效果与性能优势 - 在代码专用型模型上受益最显著:Qwen2.5-Coder-14B在域内精确匹配准确率达46.25%,较GRPO基线提升4.35个百分点 [20][21] - 在跨域场景下泛化能力突出:Qwen2.5-Coder-7B在zeta数据集上准确率提升5.30个百分点,相对提升达38.89% [22][23] - 在多个主流大语言模型上均实现稳定提升:实验覆盖了从3B到14B参数的9个主流LLM,包括Mistral、Qwen、DeepSeek-Coder等系列 [20][21] - 训练效率更高:GAPO达到最佳准确率所需的训练步骤比基线更少,例如在Qwen2.5-Coder-14B上使用GAPO (G)比GRPO少121个训练步骤 [21] - 训练更稳定,算力利用率优化:GAPO的梯度裁剪比例显著低于GRPO/DAPO基线,说明优势值估计更合理,政策更新更准确,能减少无效迭代 [27][29] - 提升硬件利用率并降低训练成本:GAPO让3B模型的平均GPU吞吐量提升4.96%,意味着用相同算力能从真实数据中获得更好的训练效果 [30] 对行业的影响与意义 - GAPO研究让企业采集的真实复杂数据从训练“包袱”转变为提升模型效果的“燃料”,精准突破了工业化落地的关键瓶颈 [12][28] - 该方法在精度、泛化能力、训练效率与硬件利用率上均实现突破,为降低AI辅助编程落地门槛、提升研发效率提供了切实可行的方案 [28] - 随着GAPO代码的开源,有望推动AI辅助编程更深入地融入软件开发全流程,促进软件产业向更高效、更智能的方向发展 [28][31]
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
具身智能之心· 2025-11-08 12:00
文章核心观点 - 视觉-语言-动作模型在机器人操作中展现出强大的通用性,但在存在环境扰动的分布外场景中泛化能力受限 [1][5] - RobustVLA是一种轻量级的在线强化学习后训练方法,通过引入双正则化策略,旨在明确增强VLA模型对环境不确定性的鲁棒性 [1][4] - 实验结果表明,RobustVLA在观测扰动、动作扰动及联合扰动场景下的平均成功率均显著优于其他先进方法,验证了其有效性 [20][21][23] 当前行业痛点 - 尽管VLA模型得益于大规模多模态预训练,但在部署时面临观测噪声、传感器误差或执行扰动等不可避免的干扰,导致其在分布外场景中无法可靠泛化 [1][5] - 现有的基于强化学习的后训练方法主要强调奖励最大化,但忽视了应对环境不确定性的鲁棒性,使得模型在真实环境中易因微小扰动出现性能大幅下降 [1][5] RobustVLA的设计逻辑与理论基础 - 方法针对环境不确定性,重点考虑了观测噪声和动作噪声及其联合效应 [4] - 通过系统的鲁棒性理论分析,确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证,并由此推导出正则化优化目标 [4][11][13][18] - 核心设计包括双正则化策略:雅可比正则化用于降低模型对观测噪声的敏感性,平滑性正则化用于在动作扰动下稳定策略 [7][8] - 整体优化目标融合了PPO的优势优化以及两种正则化项,由超参数α和β分别控制其强度 [9][10] - 采用自适应噪声调度机制,基于模型的平滑成功率动态调整注入的噪声强度,避免训练初期不稳定并逐步提升抗扰动能力 [15] 核心实验结果 - 在观测扰动场景下,RobustVLA和RobustVLA-C的平均成功率分别达到82.5%和82.2%,显著优于OpenVLA-OFT的80.6%和RIPT-VLA的80.8% [20] - 在动作扰动场景下,RobustVLA和RobustVLA-C的平均成功率均约为54.7%,超过OpenVLA-OFT的53.5%和ARFM的50.1% [21][22] - 在联合扰动场景下,RobustVLA-C以82.1%的平均成功率大幅领先,显示出在线强化学习方法与双正则化策略的协同优势 [23] - 迁移学习实验显示,RobustVLA在“开抽屉”和“放碗”等任务中,相较于零样本迁移分别提升8.0%和16.0%,展现出更强的分布外适应能力 [25] - 消融实验证明,移除任一种正则化都会导致性能下降,双正则化是鲁棒性提升的关键;可视化分析表明RobustVLA的观测表征在扰动下更稳定 [27]