Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式
机器之心·2026-04-30 12:52

文章核心观点 - 智元机器人及其合作研究团队提出并验证了一种名为“部署中学习”的全新具身智能训练范式,该范式通过大规模分布式强化学习,使机器人能够在真实世界部署中持续自主改进,突破了当前视觉-语言-动作大模型的天花板,标志着具身智能范式的彻底升级 [1][11][16] LWD范式概述与核心机制 - LWD是一套让通用VLA策略在真实世界部署中持续自主改进的可扩展强化学习系统,在业内首次实现了具身VLA的大规模RL预训练+后训练 [14] - 该范式将机器人从执行工具转变为“动态的智能网络”,构建了一个由真实世界强化学习驱动的数据飞轮,其转速直接由部署的机器人集群规模和运行时间决定 [16][23] - 系统从一个预训练好的VLA模型开始,利用离线数据进行强化学习预训练,然后将策略部署到机器人集群,机器人在执行任务时生成的数据会实时回传云端以持续更新策略,再将进化后的模型下发给物理集群,形成闭环 [19][20] - LWD的核心创新在于从失败中学习的机制,能够吸收所有类型的交互数据,包括高达34.8%的完全失败的交互轨迹,教会机器人如何在复杂物理世界中维持稳态 [23][24][41] 四大维度技术创新 - 引入分布型隐式价值学习:用分类方式拟合“价值分布”,根据不确定性自适应调整策略,确保在奖励稀疏、执行序列长达3-5分钟的任务中能精准识别关键动作 [26] - 引入伴随匹配Q学习:针对先进VLA模型的流匹配架构,将价值网络引导的动作改进转化为沿流轨迹的局部回归目标,绕过了生成模型反向传播的阻碍,降低了算力开销 [27] - 设计动态多步TD策略:根据任务长度和训练阶段智能调整预判未来的步长,例如离线训练长程任务时步长拉大到n=10,在线部署时切回n=1,兼顾了信号回传效率和在线更新的稳定性 [27][28][29] - 提出分段异步Actor-Learner架构:将执行数据的机器人集群与云端更新策略的学习器解耦,两者可独立扩容,并通过中央协调器将前端异步数据流变为同步、全局一致的数据集进行训练,云端学习经验仅需41秒,模型更新下发的延迟中位数为38秒 [29][30] 真实世界性能验证 - 新方法在16台Agibot G1双臂机器人上进行了8项真实环境操作任务测试,其中包含4项分钟级长程连贯操作任务 [32][33] - 经过在线训练强化的LWD在所有8项任务的综合评分中,平均成功率达到了0.95,显著优于传统纯行为克隆的0.76、人类干预纠偏方案的0.85以及先进离线后训练方案的0.85 [37][40] - 在最困难的4项长程任务组中,LWD取得了0.91的平均得分,优于对比方案的0.77和0.73,并且其平均循环时间比纯行为克隆缩短了23.75秒 [40][41] - 在泡功夫茶、榨果汁、调鸡尾酒及打包鞋盒等长程任务中,LWD展示了处理包含几十个连续物理交互子步骤、持续3到5分钟复杂操作的能力 [36][40] 行业意义与发展趋势 - LWD的出现,如同大模型领域的RLHF,可能成为推动具身智能新一轮规模扩展的转折点,标志着行业重心从预训练向后训练倾斜 [44] - 未来的通用机器人,核心竞争力将不再是出厂时预训练的数据量,而是在实际部署后于千行百业中主动学习和迭代的速度 [45] - 该范式验证了将真实世界的效用作为评估标准、设计贴近现实世界任务的新思路的重要性,呼应了AI大模型领域关于“下半场”的讨论 [44]

Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式 - Reportify