Reinforcement Learning（RL） - 财报，业绩电话会，研报，新闻

Reinforcement Learning（RL）

搜索文档

具身智能之心· 2025-12-14 00:02

具身智能领域技术发展综述 - 文章核心观点：梳理了近50篇视觉-语言-动作模型与强化学习相结合的研究工作，展示了该领域从2023年到2025年底的技术发展历程，主要聚焦于利用离线、在线及混合强化学习方法来微调或后训练VLA模型，以提升其在机器人操控等具身智能任务中的性能、泛化能力和安全性 [1] 离线强化学习与VLA结合 - 提出NORA-1.5模型，该模型利用世界模型和基于动作的偏好奖励进行训练 [2][4] - 提出CO-RFT方法，通过分块离线强化学习对VLA模型进行高效微调 [9] - 提出ReinboT，通过强化学习增强机器人视觉-语言操控能力 [12] - 提出Offline Actor-Critic强化学习方法，证明其可扩展至大模型 [14] - 提出Q-Transformer，通过自回归Q函数实现可扩展的离线强化学习 [18][20] - 研究平衡信号与方差，提出用于VLA流模型的自适应离线RL后训练方法 [7] - 提出Perceiver Actor-Critic架构，用于大规模离线强化学习 [17] 在线强化学习与VLA结合 - 提出WMPO方法，基于世界模型的策略优化用于VLA模型 [24][25] - 提出RobustVLA，采用鲁棒性感知的强化后训练方法 [27] - 提出World-Env，利用世界模型作为VLA后训练的虚拟环境 [29][32] - 提出DeepThinkVLA，通过在线强化学习增强VLA模型的推理能力 [31][36] - 提出Self-Improving VLA，通过残差强化学习进行数据生成的自我改进方法 [34][37] - 提出RLinf-VLA，一个统一高效的VLA+RL训练框架 [39][41][48] - 提出VLA-RFT，在世界模拟器中使用已验证奖励进行VLA强化微调 [50] - 提出通过动作分块PPO和自行为克隆进行VLA模型后训练的方法 [52] - 提出VLA-Critic模型，用于机器人现实世界强化学习 [54][56] - 提出Self-Improving Embodied Foundation Models，实现具身基础模型的自我改进 [58][60] - 提出Dual-Actor Fine-Tuning，一种人机交互的对话调整微调方法 [61] - 提出SimpleVLA-RL，通过强化学习扩展VLA训练规模 [63] - 提出RLRC，基于强化学习的压缩VLA模型恢复方法 [65] - 提出TGRPO，通过轨迹级分组相对策略优化微调VLA模型 [70] - 提出RFTF，为具身智能体提供带时序反馈的强化微调 [72] - 实证研究强化学习能为VLA泛化带来什么 [75] - 提出VLA-RL，通过可扩展强化学习实现精通且通用的机器人操控 [77] - 提出Interactive Post-Training方法，用于VLA模型 [79] - 提出SafeVLA，通过约束学习实现VLA模型的安全对齐 [81][82] - 提出GRAPE，通过偏好对齐实现机器人策略泛化 [84] - 提出通过在线强化学习改进VLA模型的方法 [86][88] - 提出RLDG，通过强化学习进行机器人通用策略蒸馏 [90][92] - 提出Policy Agnostic RL，可对任何类别和骨干网络进行离线与在线RL微调 [95] - 提出FLaRe，通过大规模强化学习微调实现精通且自适应的机器人策略 [97] 离线与在线混合强化学习与VLA结合 - 提出GR-RL，为长视野机器人操控实现灵巧与精确 [100] - 提出Discover, Learn, and Reinforce方法，利用多样化的RL生成轨迹扩展VLA预训练 [104] - 提出SRPO，用于VLA模型的自我参考策略优化 [106][108] - 提出ConRFT，通过一致性策略对VLA模型进行强化微调 [110][112] 测试时强化学习与VLA结合 - 提出通过基于模型的搜索改进预训练VLA策略的方法 [112][114] - 提出VLA-Reasoner，通过在线蒙特卡洛树搜索赋予VLA模型推理能力 [117] - 提出Hume，在VLA模型中引入系统2思维 [119] - 提出V-GPS，通过价值引导改进机器人基础模型 [121][122]

VLA+RL

Vision-Language-Action（VLA）

Reinforcement Learning（RL）

具身智能

VLA+RL

Vision-Language-Action（VLA）

Reinforcement Learning（RL）

具身智能

对谈 Pokee CEO 朱哲清：RL-native 的 Agent 系统应该长什么样？｜Best Minds

海外独角兽· 2025-08-01 20:04

AI Agent范式转向 - AI Agent正从预训练语言模型套壳转向以强化学习(RL)为核心的目标导向系统其关键在于多步决策、目标导向、持续学习和高效探索能力而非模型规模[3] - Pokee采用RL-native架构围绕目标评估、自我训练和记忆检索进行系统设计训练方式采用"少样本高目标密度"模式相比传统方法显著降低推理成本并提升泛化能力[3] - 该范式代表三个转变：从预训练LLM套壳转向目标驱动的RL系统、从静态提示词转向具备长期记忆的智能体、从token预测引擎转向任务决策机器[3] 技术架构创新 - 预训练仅提供基础理解能力真正的推理必须依赖RL实现因工作流自动化缺乏现成数据集需通过self-play和self-evaluation实现能力迭代[14][15] - 在线RL训练不可或缺离线RL增益有限 Meta广告系统案例显示在线迭代才能实现显著效果完全依赖离线数据仅能获得0.x%的微幅提升[15][17][20] - 探索(exploration)能力是开放世界Agent的核心通过量化状态不确定性解决复杂路径规划问题避免陷入局部最优解[38][39][40][43] 应用场景进展 - 编码领域Agent已成熟具备多步推理和执行能力可产生副作用并接收真实反馈达到大规模应用条件[8] - 工作流自动化领域Pokee表现突出用户反馈显示其比Zapier节省大量手动操作比Langchain等代码定义流程更易用[9] - 创意类Agent处于起步阶段存在流程断层问题如设计输出无法返回Figma编辑视频生成无法分层导入AE 预计2025-2026年将迎来爆发[11][12] 商业化路径 - Pokee成本优势显著处理30个任务仅需0.1-0.2美元相比竞品单任务1.5-2美元的成本具备10倍以上优势[36] - 企业服务是主要盈利方向采用"瑞士模式"保持中立可接入竞争平台API 同时支持本地部署满足合规要求[51][52][53] - 当前避免大规模推广专注产品打磨 Beta版发布后已产生数千个workflow和数十万task执行验证高频使用特性[37] 行业发展趋势 - 浏览器可能被Agent取代未来交互以Agent为核心前端或退化为标准化数据库呈现方式完全动态个性化[55] - 销售自动化、RPA和编程工程师是未来2-3年最看好的落地场景电商和客服领域存在应用瓶颈[58][59] - 视频生成长内容、AI支付安全、自动化数据库对接等方向存在创业机会均具备独角兽潜力[63][64]

Agent 系统

Reinforcement Learning（RL）

Reinforcement Learning（RL）

终身学习系统

人工智能

Pokee 的 AI agent 产品