Workflow
VLA+RL
icon
搜索文档
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 11:43
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-行动模型在真实世界分布外场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐渐完善[2] 代表性研究方法与框架 - 基于世界模型的在线方案是活跃方向,例如使用世界模型和基于行动的偏好奖励进行训练的NORA-1.5模型[2][5] - 离线强化学习被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调[5] - 工具方面,Rlinf等框架支持的方法越来越多,为VLA+RL训练提供了统一高效的平台[2][11] 近期重要研究成果(2025年) - 2025年11月,NORA-1.5、pi0.6、GR-RL、WMPO、RobustVLA、World-Env、ProphRL等多个工作取得惊艳效果[2][5][8][9] - 2025年10月,DeepThinkVLA、Self-Improving VLA with Data Generation via Residual RL、RLinf-VLA、VLA-RFT等工作发布,专注于增强推理能力、自我改进与在模拟器中的验证奖励微调[8][9][10][11] - 2025年9月及之前,CO-RFT、ReinboT、VLA-Critic、Self-Improving Embodied Foundation Models、Dual-Actor Fine-Tuning、SimpleVLA-RL等工作陆续被会议收录,涉及分块离线强化学习、策略提炼、人机交互等多种方法[5][10][11][12] 早期与中期关键工作(2023-2024年) - 2023年10月,Q-Transformer通过自回归Q函数实现了可扩展的离线强化学习,为后续研究奠定基础[8][9] - 2024年2月,Perceiver Actor-Critic工作发布[7] - 2024年9月至12月,FLaRe、Policy Agnostic RL、RLDG、GRAPE等工作聚焦于大规模强化学习微调、策略无关的RL以及通过偏好对齐实现策略泛化[17][19] 技术细分方向 - **安全与鲁棒性**:例如2025年3月的SafeVLA致力于通过约束学习实现VLA模型的安全对齐[16][19] - **恢复与适应**:例如2025年6月的RLRC专注于基于强化学习的压缩VLA模型恢复,TGRPO通过轨迹组相对策略优化进行微调[13][14] - **实证研究**:例如2025年5月的“What Can RL Bring to VLA Generalization?”对强化学习提升VLA泛化能力进行了实证研究[13][14]
VLA+RL技术交流群来啦~
具身智能之心· 2025-12-23 11:34
行业技术动态 - 行业正在积极组建围绕视觉语言动作模型的技术交流社群,社群关注方向包括VLA模型本身、VLA与强化学习的结合以及模型的轻量化与部署 [1]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
在看完近50篇VLA+RL工作之后......
具身智能之心· 2025-12-14 00:02
具身智能领域技术发展综述 - 文章核心观点:梳理了近50篇视觉-语言-动作模型与强化学习相结合的研究工作,展示了该领域从2023年到2025年底的技术发展历程,主要聚焦于利用离线、在线及混合强化学习方法来微调或后训练VLA模型,以提升其在机器人操控等具身智能任务中的性能、泛化能力和安全性 [1] 离线强化学习与VLA结合 - 提出NORA-1.5模型,该模型利用世界模型和基于动作的偏好奖励进行训练 [2][4] - 提出CO-RFT方法,通过分块离线强化学习对VLA模型进行高效微调 [9] - 提出ReinboT,通过强化学习增强机器人视觉-语言操控能力 [12] - 提出Offline Actor-Critic强化学习方法,证明其可扩展至大模型 [14] - 提出Q-Transformer,通过自回归Q函数实现可扩展的离线强化学习 [18][20] - 研究平衡信号与方差,提出用于VLA流模型的自适应离线RL后训练方法 [7] - 提出Perceiver Actor-Critic架构,用于大规模离线强化学习 [17] 在线强化学习与VLA结合 - 提出WMPO方法,基于世界模型的策略优化用于VLA模型 [24][25] - 提出RobustVLA,采用鲁棒性感知的强化后训练方法 [27] - 提出World-Env,利用世界模型作为VLA后训练的虚拟环境 [29][32] - 提出DeepThinkVLA,通过在线强化学习增强VLA模型的推理能力 [31][36] - 提出Self-Improving VLA,通过残差强化学习进行数据生成的自我改进方法 [34][37] - 提出RLinf-VLA,一个统一高效的VLA+RL训练框架 [39][41][48] - 提出VLA-RFT,在世界模拟器中使用已验证奖励进行VLA强化微调 [50] - 提出通过动作分块PPO和自行为克隆进行VLA模型后训练的方法 [52] - 提出VLA-Critic模型,用于机器人现实世界强化学习 [54][56] - 提出Self-Improving Embodied Foundation Models,实现具身基础模型的自我改进 [58][60] - 提出Dual-Actor Fine-Tuning,一种人机交互的对话调整微调方法 [61] - 提出SimpleVLA-RL,通过强化学习扩展VLA训练规模 [63] - 提出RLRC,基于强化学习的压缩VLA模型恢复方法 [65] - 提出TGRPO,通过轨迹级分组相对策略优化微调VLA模型 [70] - 提出RFTF,为具身智能体提供带时序反馈的强化微调 [72] - 实证研究强化学习能为VLA泛化带来什么 [75] - 提出VLA-RL,通过可扩展强化学习实现精通且通用的机器人操控 [77] - 提出Interactive Post-Training方法,用于VLA模型 [79] - 提出SafeVLA,通过约束学习实现VLA模型的安全对齐 [81][82] - 提出GRAPE,通过偏好对齐实现机器人策略泛化 [84] - 提出通过在线强化学习改进VLA模型的方法 [86][88] - 提出RLDG,通过强化学习进行机器人通用策略蒸馏 [90][92] - 提出Policy Agnostic RL,可对任何类别和骨干网络进行离线与在线RL微调 [95] - 提出FLaRe,通过大规模强化学习微调实现精通且自适应的机器人策略 [97] 离线与在线混合强化学习与VLA结合 - 提出GR-RL,为长视野机器人操控实现灵巧与精确 [100] - 提出Discover, Learn, and Reinforce方法,利用多样化的RL生成轨迹扩展VLA预训练 [104] - 提出SRPO,用于VLA模型的自我参考策略优化 [106][108] - 提出ConRFT,通过一致性策略对VLA模型进行强化微调 [110][112] 测试时强化学习与VLA结合 - 提出通过基于模型的搜索改进预训练VLA策略的方法 [112][114] - 提出VLA-Reasoner,通过在线蒙特卡洛树搜索赋予VLA模型推理能力 [117] - 提出Hume,在VLA模型中引入系统2思维 [119] - 提出V-GPS,通过价值引导改进机器人基础模型 [121][122]
具身智能之心招募VLA+RL方向的合作伙伴~
具身智能之心· 2025-11-17 18:01
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,希望进行更深入的讲解 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程 [1] - 公司向全平台粉丝招募1名该方向的课程讲师共同开发课程 [1] 讲师要求 - 研究方向需为视觉语言动作与强化学习 [2] - 学术界讲师要求博士及以上学历,并拥有相关方向的顶级会议成果 [2] - 工业界讲师要求具备实战经验和真机调试经验 [2] 公司平台优势 - 公司是国内首个具身全栈技术交流社区 [3] - 公司平台聚集了大量视觉语言动作与强化学习方向的学习者 [3] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-11-11 11:48
招聘背景与目的 - 社区收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入讲解[1] - 公司计划招募1名该方向的课程讲师共同开发在线课程[1] - 具身智能之心是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] 招聘要求 - 研究方向需为视觉语言动作与强化学习结合领域[2] - 学术界应聘者需博士及以上学历(含在读)且拥有相关顶会成果[2] - 工业界应聘者需具备实战经验与真机调试经验[2] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬待遇[4] - 应聘者可获得丰富的行业资源支持[4] 咨询方式 - 详细招聘内容可通过添加指定微信号进行咨询[5]
VLA+RL正在不断拉升着具身操作的上限!
具身智能之心· 2025-11-11 08:02
文章核心观点 - VLA与RL结合的技术路线正成为提升具身操作性能的关键方向,能有效弥补预训练模型与真实任务之间的差距 [1] - RL训练通过直接优化任务完成度这一终极目标,使模型具备处理意外情况的更强鲁棒性,并学习到更平滑的轨迹及与物理世界精细对齐的能力 [1] - 开源项目RLinf通过标准化接口支持主流VLA模型及CPU/GPU模拟器,并率先实现了对π0和π0.5模型系列的强化学习微调 [2][4] 技术性能评估 - 在LIBERO任务组评估中,π0模型在空间、物体、目标和长任务上的成功率分别为96.8%、98.8%、95.8%和85.2%,平均成功率达94.2% [5] - π0.5模型表现更优,在上述四项任务上的成功率分别为98.8%、98.2%、98.0%和92.4%,平均成功率达96.9% [5] - 采用Few-shot数据集SFT结合RL方法后,Flow-SDE π0.5模型在物体任务上达到100%成功率,整体平均成功率提升20.8个百分点至97.9% [5] - Flow-Noise π0.5模型在物体任务上同样达到100%成功率,整体平均成功率提升21.2个百分点至98.3% [5] 社区资源与生态 - 具身智能之心知识星球已汇聚近2000名成员,涵盖国内外知名高校实验室及机器人头部公司 [14] - 社区汇总了40多个开源项目、60多个具身智能相关数据集及行业主流仿真平台 [15] - 技术学习路线覆盖感知、交互、强化学习、VLA、VLN、多模态大模型等20多个专业方向 [15][16] - 社区提供产业研报、零部件品牌、开源数据、仿真平台等全方位资源汇总 [23][28][30][38] 技术发展前沿 - 社区内容涵盖数据采集、灵巧手、VLA模型、多传感器融合、分层感知操作等14个技术模块 [8] - 具体技术方向包括RoboDexVLM分层架构、BridgeVLA真机性能提升32%、具身4D世界模型EnerVerse等创新成果 [8] - 强化学习与VLA结合领域汇总了基于LLM的强化学习、可解释强化学习等主流方案 [40][58] - 多模态大模型方向涵盖理解与生成两大类应用,包括Image/Video/Audio/3D等多种模态组合 [51][53]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-10-31 12:00
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,显示该领域存在显著的知识需求 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程,旨在进行更深入的技术讲解 [1] - 公司是国内首个具身全栈技术交流社区,已聚集大量视觉语言动作与强化学习方向的研究者 [3] 讲师资格要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历(含在读),并拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 合作待遇与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] - 详细合作内容需通过指定微信联系方式进行咨询 [5]
VLA可以赋于强化学习更智能的场景应用......
具身智能之心· 2025-10-17 12:01
强化学习在机器人领域的应用 - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效顺畅 [4][9] 论文辅导课程核心信息 - 课程目标为帮助学员产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊要求的论文初稿,涵盖论文IDEA确认、项目实现、实验指导、写作润色全流程 [8][10] - 课程周期为14周核心在线集中辅导加8周维护答疑,采用6人小班制,配备专属助教 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、VLA+RL四个大方向的可创新研究idea,每个题目均配备场景与基线代码 [19][30] 课程内容与产出 - 课程基于最新的Isaac Lab等仿真训练环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并涵盖sim2real/real2sim2real完整技术流程 [18][19][23] - 学员将完成从强化学习基础、仿真环境搭建到具体机器人任务训练(如复杂地形行走、灵巧操作)的系列实战,最终交付论文初稿v1.0及定量分析报告 [23][24][29] - 课程评测标准包括成功率、能耗、步态、接触冲击、鲁棒性等指标,并要求进行不少于5次随机种子的统计显著性检验流程 [19] 师资与特色 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [27] - 课程特色为科研全闭环陪跑,包括每周里程碑、组会、代码/实验复盘、写作修改建议,结营后提供8周论文维护支持(补实验、改图、润色与审稿回复) [18][25][36]