Reinforcement Learning(RL)
搜索文档
在看完近50篇VLA+RL工作之后......
具身智能之心· 2025-12-14 00:02
具身智能领域技术发展综述 - 文章核心观点:梳理了近50篇视觉-语言-动作模型与强化学习相结合的研究工作,展示了该领域从2023年到2025年底的技术发展历程,主要聚焦于利用离线、在线及混合强化学习方法来微调或后训练VLA模型,以提升其在机器人操控等具身智能任务中的性能、泛化能力和安全性 [1] 离线强化学习与VLA结合 - 提出NORA-1.5模型,该模型利用世界模型和基于动作的偏好奖励进行训练 [2][4] - 提出CO-RFT方法,通过分块离线强化学习对VLA模型进行高效微调 [9] - 提出ReinboT,通过强化学习增强机器人视觉-语言操控能力 [12] - 提出Offline Actor-Critic强化学习方法,证明其可扩展至大模型 [14] - 提出Q-Transformer,通过自回归Q函数实现可扩展的离线强化学习 [18][20] - 研究平衡信号与方差,提出用于VLA流模型的自适应离线RL后训练方法 [7] - 提出Perceiver Actor-Critic架构,用于大规模离线强化学习 [17] 在线强化学习与VLA结合 - 提出WMPO方法,基于世界模型的策略优化用于VLA模型 [24][25] - 提出RobustVLA,采用鲁棒性感知的强化后训练方法 [27] - 提出World-Env,利用世界模型作为VLA后训练的虚拟环境 [29][32] - 提出DeepThinkVLA,通过在线强化学习增强VLA模型的推理能力 [31][36] - 提出Self-Improving VLA,通过残差强化学习进行数据生成的自我改进方法 [34][37] - 提出RLinf-VLA,一个统一高效的VLA+RL训练框架 [39][41][48] - 提出VLA-RFT,在世界模拟器中使用已验证奖励进行VLA强化微调 [50] - 提出通过动作分块PPO和自行为克隆进行VLA模型后训练的方法 [52] - 提出VLA-Critic模型,用于机器人现实世界强化学习 [54][56] - 提出Self-Improving Embodied Foundation Models,实现具身基础模型的自我改进 [58][60] - 提出Dual-Actor Fine-Tuning,一种人机交互的对话调整微调方法 [61] - 提出SimpleVLA-RL,通过强化学习扩展VLA训练规模 [63] - 提出RLRC,基于强化学习的压缩VLA模型恢复方法 [65] - 提出TGRPO,通过轨迹级分组相对策略优化微调VLA模型 [70] - 提出RFTF,为具身智能体提供带时序反馈的强化微调 [72] - 实证研究强化学习能为VLA泛化带来什么 [75] - 提出VLA-RL,通过可扩展强化学习实现精通且通用的机器人操控 [77] - 提出Interactive Post-Training方法,用于VLA模型 [79] - 提出SafeVLA,通过约束学习实现VLA模型的安全对齐 [81][82] - 提出GRAPE,通过偏好对齐实现机器人策略泛化 [84] - 提出通过在线强化学习改进VLA模型的方法 [86][88] - 提出RLDG,通过强化学习进行机器人通用策略蒸馏 [90][92] - 提出Policy Agnostic RL,可对任何类别和骨干网络进行离线与在线RL微调 [95] - 提出FLaRe,通过大规模强化学习微调实现精通且自适应的机器人策略 [97] 离线与在线混合强化学习与VLA结合 - 提出GR-RL,为长视野机器人操控实现灵巧与精确 [100] - 提出Discover, Learn, and Reinforce方法,利用多样化的RL生成轨迹扩展VLA预训练 [104] - 提出SRPO,用于VLA模型的自我参考策略优化 [106][108] - 提出ConRFT,通过一致性策略对VLA模型进行强化微调 [110][112] 测试时强化学习与VLA结合 - 提出通过基于模型的搜索改进预训练VLA策略的方法 [112][114] - 提出VLA-Reasoner,通过在线蒙特卡洛树搜索赋予VLA模型推理能力 [117] - 提出Hume,在VLA模型中引入系统2思维 [119] - 提出V-GPS,通过价值引导改进机器人基础模型 [121][122]
对谈 Pokee CEO 朱哲清:RL-native 的 Agent 系统应该长什么样?|Best Minds
海外独角兽· 2025-08-01 20:04
AI Agent范式转向 - AI Agent正从预训练语言模型套壳转向以强化学习(RL)为核心的目标导向系统 其关键在于多步决策、目标导向、持续学习和高效探索能力而非模型规模[3] - Pokee采用RL-native架构 围绕目标评估、自我训练和记忆检索进行系统设计 训练方式采用"少样本高目标密度"模式 相比传统方法显著降低推理成本并提升泛化能力[3] - 该范式代表三个转变:从预训练LLM套壳转向目标驱动的RL系统、从静态提示词转向具备长期记忆的智能体、从token预测引擎转向任务决策机器[3] 技术架构创新 - 预训练仅提供基础理解能力 真正的推理必须依赖RL实现 因工作流自动化缺乏现成数据集 需通过self-play和self-evaluation实现能力迭代[14][15] - 在线RL训练不可或缺 离线RL增益有限 Meta广告系统案例显示在线迭代才能实现显著效果 完全依赖离线数据仅能获得0.x%的微幅提升[15][17][20] - 探索(exploration)能力是开放世界Agent的核心 通过量化状态不确定性解决复杂路径规划问题 避免陷入局部最优解[38][39][40][43] 应用场景进展 - 编码领域Agent已成熟 具备多步推理和执行能力 可产生副作用并接收真实反馈 达到大规模应用条件[8] - 工作流自动化领域Pokee表现突出 用户反馈显示其比Zapier节省大量手动操作 比Langchain等代码定义流程更易用[9] - 创意类Agent处于起步阶段 存在流程断层问题 如设计输出无法返回Figma编辑 视频生成无法分层导入AE 预计2025-2026年将迎来爆发[11][12] 商业化路径 - Pokee成本优势显著 处理30个任务仅需0.1-0.2美元 相比竞品单任务1.5-2美元的成本具备10倍以上优势[36] - 企业服务是主要盈利方向 采用"瑞士模式"保持中立 可接入竞争平台API 同时支持本地部署满足合规要求[51][52][53] - 当前避免大规模推广 专注产品打磨 Beta版发布后已产生数千个workflow和数十万task执行 验证高频使用特性[37] 行业发展趋势 - 浏览器可能被Agent取代 未来交互以Agent为核心 前端或退化为标准化数据库 呈现方式完全动态个性化[55] - 销售自动化、RPA和编程工程师是未来2-3年最看好的落地场景 电商和客服领域存在应用瓶颈[58][59] - 视频生成长内容、AI支付安全、自动化数据库对接等方向存在创业机会 均具备独角兽潜力[63][64]