TwinRL
搜索文档
真机RL杀疯了,机器人自学20分钟100分,数字孪生封神
36氪· 2026-02-13 15:32
文章核心观点 - 由至简动力、北京大学、清华大学、香港科技大学联合提出的TwinRL框架,通过构建数字孪生环境来扩展机器人视觉-语言-动作模型的探索空间,解决了其在真实世界中因依赖有限演示数据而泛化能力不足的关键瓶颈 [13][15] - TwinRL框架使机器人能够在数字孪生中并行、安全地进行强化学习探索,再将学习成果迁移至真实机器人,从而在多项任务中仅需约20分钟即可达到接近100%的成功率,相比现有方法训练加速至少30%,并大幅减少人类干预需求 [22][36][39] - 至简动力通过LaST₀基座模型、ManualVLA推理执行框架和TwinRL在线进化技术,构建了“推理—执行—进化”的完整技术闭环,推动一体化VLA范式从学术研究走向真实场景落地 [49][54][55] 行业背景与问题 - 当前,视觉-语言-动作模型在机器人领域展现出良好泛化潜力,但其在真实世界部署中高度依赖昂贵、覆盖有限的人类示范数据,且难以支持长期自主学习 [4][5][27] - 一个核心问题是,即使采用在线强化学习,机器人的有效探索空间也被监督微调阶段所使用的演示数据分布牢牢限制,导致其难以在未见过的新区域进行有效探索和学习 [9][11][28] - 在真实机器人上直接进行在线强化学习存在效率低、风险高、难以并行等问题,一个探索失误可能导致硬件损坏 [17][27] TwinRL技术框架与原理 - 核心洞察在于,问题的关键不在于算法本身,而在于探索空间受限,因此提出将探索过程提前至一个可控、可扩展的数字孪生世界中 [15] - 框架第一步是探索空间扩展:使用手机采集场景并通过3D Gaussian Splatting高效重建高保真数字孪生,在此基础上生成远超人类示范覆盖范围的合成轨迹数据,在监督微调阶段就显式拓宽数据分布 [23][25][32] - 框架第二步是数字孪生中的并行在线强化学习:在部署前于数字孪生环境中执行高效并行的在线强化学习,生成多样化轨迹并迁移至真实回放缓冲区,以缓解从离线训练到在线学习的性能退化与不稳定问题 [20][21][33] - 框架第三步是Sim-to-Real引导的人类在回路探索:利用数字孪生识别失败高发但信息密集的关键状态配置,精准引导人类只在最有价值的位置进行干预,从而大幅减少无效示范和重复操作 [22][25][35] 实验性能与结果 - 在4项真实世界机器人操作任务中,TwinRL平均仅需约20分钟即可完成在线强化学习收敛,并在分布内和分布外区域均实现接近100%的成功率覆盖 [22][36][38] - 相比现有真实机器人强化学习方法,TwinRL实现了至少30%的训练加速,同时显著降低了人类干预需求 [22][39] - 消融实验表明,在监督微调阶段加入数字孪生生成的合成轨迹能显著提升成功率,例如在平衡设置下平均成功率从27%提升至57% [43] - 在面临背景杂物、光照变化等环境扰动时,经过TwinRL引导在线强化学习微调的策略表现出更强的鲁棒性,性能仅轻微下降,而仅经过监督微调的模型则出现明显性能退化 [46] 公司技术与战略布局 - 至简动力构建了具身智能“三部曲”技术闭环:LaST₀基座模型融合物理世界理解与预测,解决“边想边快速动”的难题;ManualVLA贯通推理与执行,在复杂任务上平均成功率比此前最优方法高出32%;TwinRL则实现高效在线进化 [49][50][52][53] - 这三项核心技术——LaST₀、ManualVLA、TwinRL——有机串联,构成了公司“推理—执行—进化”的VLA技术三角,旨在推动一体化VLA基础模型范式从论文走向真实产线和场景 [54][55] - 行业知情人士透露,至简动力成立半年即获得密集的顶级资本加持,目前估值已逼近独角兽阵营,这在具身智能赛道中极为罕见 [14]