GRAPE

搜索文档
一文尽览!2025年多篇VLA与RL融合的突破方向
自动驾驶之心· 2025-08-27 07:32
好的,我将按照您的要求分析这篇关于机器人具身智能领域VLA与RL融合的研究文章。作为资深分析师,我将从技术突破、性能提升和应用前景三个维度为您解读核心要点。 文章核心观点 2025年机器人具身智能领域正爆发"多模态与自主学习"的融合革命,ICLR、RSS、ICRA、CVPR等顶会集中收录的8篇重磅文献清一色聚焦视觉-语言-动作(VLA)模型与强化学习(RL)的融合,致力于解决机器人在真实场景中的智能决策和精准执行问题[2] 这些研究以VLA模型的多模态理解能力为基石,叠加强化学习的自主优化优势,针对机器人操控和导航中的策略泛化难、动态环境适应差、多模态信息错位等行业瓶颈提出创新解决方案[58] 研究聚焦家居家务、工业装配、机械臂操控等高频应用场景,通过扎实的实验数据验证方法有效性,部分还开放项目代码推动技术落地[58] GRAPE模型研究 - 通过轨迹级VLA对齐、任务阶段分解及灵活时空约束的偏好建模,解决VLA模型泛化差与目标适应性弱的问题[5] - 将最先进VLA模型的域内操作任务成功率提升51.79%,未见操作任务成功率提升58.20%[8] - 在安全性目标下碰撞率降低37.44%,在效率目标下启动步长减少11.15%[8] VLA-RL框架突破 - 构建轨迹级强化学习表达式将操作轨迹转化为多模态多轮对话形式,微调预训练视觉语言模型成为机器人过程奖励模型[13] - 在LIBERO平台的40个挑战性机器人操作任务中使OpenVLA-7B模型性能较当前最强微调基线明显提升[15] - 发现可通过测试时间优化进一步增强性能,为机器人领域存在早期推理扩展规律提供重要迹象[15] ReWiND框架创新 - 基于少量演示预训练语言基奖励函数与策略,通过少在线交互的微调适配未见任务[18] - 奖励模型对未见过任务的泛化能力比基准方法高出2.4倍[21] - 在新任务适应效率上,模拟环境中比基准方法快2倍,真实世界场景下将预训练双手动策略的性能提升5倍[21] ConRFT方法进展 - 采用"离线(行为克隆+Q学习)+在线(一致性策略+人工干预)"两阶段强化微调[24] - 仅需45至90分钟的在线微调时间,模型平均成功率便达到96.3%,较监督学习方法提升144%[29] - 单个回合长度缩短1.9倍,在八项实际操作任务中展现优异性能[29] RLDG方法贡献 - 利用强化学习生成高质量训练数据微调机器人通用策略[33] - 在连接器插入、组装等精确操作任务中,成功率最高提升40%[39] - 性能提升源于数据优化后的动作分布与改进的状态覆盖,实现"通用策略灵活性+专门任务高性能"的结合[39] TGRPO优化方案 - 融合步骤级别与轨迹级别的优势信号,优化GRPO原有的组级优势估计[42] - 在基准测试的十个操作任务中性能始终优于各类基线方法[44] - 能够生成更稳健、高效的操作策略,提升VLA模型微调效果与实际适配能力[44] iRe-VLAd框架特色 - 通过强化学习与监督学习循环迭代的模式优化VLA模型[49] - 有效解决直接应用在线强化学习于VLA模型的训练不稳定与计算负担过重问题[47] - 在两个模拟基准与一个真实世界操作套件的实验中验证有效性[51] RIPT-VLA后训练突破 - 基于稀疏二进制成功奖励,通过动态回放采样与留出部分优势估计算法进行交互式后训练[55] - 使轻量级QueST模型成功率提升21.2%,7B参数的OpenVLA-OFT模型成功率达97.5%的新高[57] - 仅需1次演示即可让SFT模型在15次迭代内达到97%的成功率,计算与数据效率突出[57]
一文尽览!2025年多篇VLA与RL融合的突破方向
具身智能之心· 2025-08-25 08:04
视觉-语言-动作模型与强化学习融合研究进展 - 2025年机器人具身智能领域聚焦视觉-语言-动作模型与强化学习的融合 旨在解决真实场景中决策与执行精度问题 相关研究在ICLR、RSS、ICRA、CVPR等顶会集中收录[2] GRAPE模型创新 - 通过轨迹级VLA对齐和任务阶段分解提升模型泛化能力 解决行为克隆依赖导致的未见任务适应性问题[4][5] - 采用可定制时空约束的偏好建模 支持根据安全、效率等目标灵活调整策略[5] - 在现实世界与模拟环境中 域内操作任务成功率提升51.79% 未见任务成功率提升58.20% 安全性目标下碰撞率降低37.44% 效率目标下启动步长减少11.15%[7] VLA-RL框架突破 - 构建轨迹级强化学习表达式 将操作轨迹转化为多模态对话形式 优化在线数据利用[10][12] - 微调预训练视觉语言模型作为机器人过程奖励模型 解决稀疏奖励问题[12] - 在LIBERO平台40个任务中性能超越OpenVLA-7B基线 并显现推理扩展规律迹象[14] ReWiND框架优势 - 通过预训练语言基奖励函数和策略 实现少样本微调适配新任务 无需重复设计奖励或演示[17][18] - 奖励模型泛化能力达基准方法2.4倍 新任务适应效率在模拟环境中快2倍 真实世界场景下双手动策略性能提升5倍[20] ConRFT强化微调方法 - 采用离线行为克隆与Q学习结合在线一致性策略的两阶段训练 提升训练稳定性[23][25] - 在八项实际操作任务中平均成功率达96.3% 较监督学习方法提升144% 回合长度缩短1.9倍[28] RLDG数据优化策略 - 利用强化学习生成高质量训练数据微调通用策略 改善动作分布与状态覆盖[32][35] - 在精确操作任务中成功率最高提升40% 泛化能力优于人类演示训练策略[38] TGRPO在线优化方案 - 融合步骤级与轨迹级优势信号优化组级估计 增强在线强化学习训练适配性[38][41] - 在十个操作任务中性能超越监督微调与PPO基线 生成策略更稳健高效[43] iRe-VLAd迭代训练框架 - 通过强化学习与监督学习循环迭代解决训练不稳定与计算负担问题[44][46][48] - 在模拟基准和真实操作套件中验证有效性 实现交互场景下性能优化[50] RIPT-VLA后训练模式 - 基于稀疏二进制成功奖励进行交互式后训练 适配低数据环境[51][52][54] - 轻量级QueST模型成功率提升21.2% OpenVLA-OFT模型达97.5%成功率 仅需1次演示即可在15次迭代内实现97%成功率[56] 行业应用与趋势 - 研究聚焦机器人操控、导航中的策略泛化、动态环境适应及多模态信息对齐问题 覆盖家居家务、工业装配、机械臂操控等高频场景[57] - 部分研究开放项目代码 推动前沿技术落地应用[57]
不插管、不麻醉、零痛苦!达摩院AI靠一张CT让早期胃癌现形
华尔街见闻· 2025-06-25 17:14
医疗AI技术突破 - 浙江省肿瘤医院与阿里巴巴达摩院联合研发的胃癌筛查AI模型GRAPE,通过腹部平扫CT影像实现胃癌特别是早期胃癌的规模化筛查 [1] - GRAPE模型采用两阶段深度学习框架,基于nnU-Net架构,兼具性能与可解释性,输出分割图像供医生验证 [8][9] - 模型在包含20个中心、近10万人的数据上进行开发验证,AUC达0.92,超越13名放射科医生(AUC 0.76-0.85) [10][12] 胃癌筛查市场痛点 - 中国每年新增胃癌患者约35.87万,死亡26.04万,占全球40%,五年生存率仅35.9%,远低于日韩60%以上水平 [3] - 传统胃镜检查存在三大瓶颈:侵入性导致接受度低(依从率18-48%)、资源依赖性强、效率低下(检出率仅1.16-1.20%) [4][5] - 现有替代方案如血清学检测对检出率提升有限(仅从1.20%升至1.25%),液体活检成本高且技术不成熟 [5] 技术性能对比 - GRAPE对早期胃癌(T1/T2期)检出敏感性约50%,进展期(T3/T4期)超90% [12] - 平扫CT+AI方案(GRAPE)无创、灵敏度81.7-85.1%、特异性90.5-96.8%,显著优于血清学检测和液体活检 [14] - 达摩院推行"一扫多查"战略,已实现胰腺癌(PANDA)和胃癌筛查突破,计划扩展至肝癌等更多病种 [7][15] 商业化路径 - B2B模式:向体检机构销售AI服务包作为增值服务 [18] - B2B2C模式:医院在常规CT检查中提供自费AI风险评估附加项 [18] - OEM授权模式:算法授权给影像设备厂商作为高端CT卖点 [18] - 价值医疗模式:向支付方证明AI筛查成本低于晚期治疗费用 [18]