Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

文章核心观点 - 智元机器人及其合作研究团队提出并验证了一种名为“部署中学习”的全新具身智能训练范式，该范式通过大规模分布式强化学习，使机器人能够在真实世界部署中持续自主改进，突破了当前视觉-语言-动作大模型的天花板，标志着具身智能范式的彻底升级 [1][11][16] LWD范式概述与核心机制 - LWD是一套让通用VLA策略在真实世界部署中持续自主改进的可扩展强化学习系统，在业内首次实现了具身VLA的大规模RL预训练+后训练 [14] - 该范式将机器人从执行工具转变为“动态的智能网络”，构建了一个由真实世界强化学习驱动的数据飞轮，其转速直接由部署的机器人集群规模和运行时间决定 [16][23] - 系统从一个预训练好的VLA模型开始，利用离线数据进行强化学习预训练，然后将策略部署到机器人集群，机器人在执行任务时生成的数据会实时回传云端以持续更新策略，再将进化后的模型下发给物理集群，形成闭环 [19][20] - LWD的核心创新在于从失败中学习的机制，能够吸收所有类型的交互数据，包括高达34.8%的完全失败的交互轨迹，教会机器人如何在复杂物理世界中维持稳态 [23][24][41] 四大维度技术创新 - 引入分布型隐式价值学习：用分类方式拟合“价值分布”，根据不确定性自适应调整策略，确保在奖励稀疏、执行序列长达3-5分钟的任务中能精准识别关键动作 [26] - 引入伴随匹配Q学习：针对先进VLA模型的流匹配架构，将价值网络引导的动作改进转化为沿流轨迹的局部回归目标，绕过了生成模型反向传播的阻碍，降低了算力开销 [27] - 设计动态多步TD策略：根据任务长度和训练阶段智能调整预判未来的步长，例如离线训练长程任务时步长拉大到n=10，在线部署时切回n=1，兼顾了信号回传效率和在线更新的稳定性 [27][28][29] - 提出分段异步Actor-Learner架构：将执行数据的机器人集群与云端更新策略的学习器解耦，两者可独立扩容，并通过中央协调器将前端异步数据流变为同步、全局一致的数据集进行训练，云端学习经验仅需41秒，模型更新下发的延迟中位数为38秒 [29][30] 真实世界性能验证 - 新方法在16台Agibot G1双臂机器人上进行了8项真实环境操作任务测试，其中包含4项分钟级长程连贯操作任务 [32][33] - 经过在线训练强化的LWD在所有8项任务的综合评分中，平均成功率达到了0.95，显著优于传统纯行为克隆的0.76、人类干预纠偏方案的0.85以及先进离线后训练方案的0.85 [37][40] - 在最困难的4项长程任务组中，LWD取得了0.91的平均得分，优于对比方案的0.77和0.73，并且其平均循环时间比纯行为克隆缩短了23.75秒 [40][41] - 在泡功夫茶、榨果汁、调鸡尾酒及打包鞋盒等长程任务中，LWD展示了处理包含几十个连续物理交互子步骤、持续3到5分钟复杂操作的能力 [36][40] 行业意义与发展趋势 - LWD的出现，如同大模型领域的RLHF，可能成为推动具身智能新一轮规模扩展的转折点，标志着行业重心从预训练向后训练倾斜 [44] - 未来的通用机器人，核心竞争力将不再是出厂时预训练的数据量，而是在实际部署后于千行百业中主动学习和迭代的速度 [45] - 该范式验证了将真实世界的效用作为评估标准、设计贴近现实世界任务的新思路的重要性，呼应了AI大模型领域关于“下半场”的讨论 [44]