Workflow
ManualVLA
icon
搜索文档
真机RL杀疯了,机器人自学20分钟100分,数字孪生封神
36氪· 2026-02-13 15:32
文章核心观点 - 由至简动力、北京大学、清华大学、香港科技大学联合提出的TwinRL框架,通过构建数字孪生环境来扩展机器人视觉-语言-动作模型的探索空间,解决了其在真实世界中因依赖有限演示数据而泛化能力不足的关键瓶颈 [13][15] - TwinRL框架使机器人能够在数字孪生中并行、安全地进行强化学习探索,再将学习成果迁移至真实机器人,从而在多项任务中仅需约20分钟即可达到接近100%的成功率,相比现有方法训练加速至少30%,并大幅减少人类干预需求 [22][36][39] - 至简动力通过LaST₀基座模型、ManualVLA推理执行框架和TwinRL在线进化技术,构建了“推理—执行—进化”的完整技术闭环,推动一体化VLA范式从学术研究走向真实场景落地 [49][54][55] 行业背景与问题 - 当前,视觉-语言-动作模型在机器人领域展现出良好泛化潜力,但其在真实世界部署中高度依赖昂贵、覆盖有限的人类示范数据,且难以支持长期自主学习 [4][5][27] - 一个核心问题是,即使采用在线强化学习,机器人的有效探索空间也被监督微调阶段所使用的演示数据分布牢牢限制,导致其难以在未见过的新区域进行有效探索和学习 [9][11][28] - 在真实机器人上直接进行在线强化学习存在效率低、风险高、难以并行等问题,一个探索失误可能导致硬件损坏 [17][27] TwinRL技术框架与原理 - 核心洞察在于,问题的关键不在于算法本身,而在于探索空间受限,因此提出将探索过程提前至一个可控、可扩展的数字孪生世界中 [15] - 框架第一步是探索空间扩展:使用手机采集场景并通过3D Gaussian Splatting高效重建高保真数字孪生,在此基础上生成远超人类示范覆盖范围的合成轨迹数据,在监督微调阶段就显式拓宽数据分布 [23][25][32] - 框架第二步是数字孪生中的并行在线强化学习:在部署前于数字孪生环境中执行高效并行的在线强化学习,生成多样化轨迹并迁移至真实回放缓冲区,以缓解从离线训练到在线学习的性能退化与不稳定问题 [20][21][33] - 框架第三步是Sim-to-Real引导的人类在回路探索:利用数字孪生识别失败高发但信息密集的关键状态配置,精准引导人类只在最有价值的位置进行干预,从而大幅减少无效示范和重复操作 [22][25][35] 实验性能与结果 - 在4项真实世界机器人操作任务中,TwinRL平均仅需约20分钟即可完成在线强化学习收敛,并在分布内和分布外区域均实现接近100%的成功率覆盖 [22][36][38] - 相比现有真实机器人强化学习方法,TwinRL实现了至少30%的训练加速,同时显著降低了人类干预需求 [22][39] - 消融实验表明,在监督微调阶段加入数字孪生生成的合成轨迹能显著提升成功率,例如在平衡设置下平均成功率从27%提升至57% [43] - 在面临背景杂物、光照变化等环境扰动时,经过TwinRL引导在线强化学习微调的策略表现出更强的鲁棒性,性能仅轻微下降,而仅经过监督微调的模型则出现明显性能退化 [46] 公司技术与战略布局 - 至简动力构建了具身智能“三部曲”技术闭环:LaST₀基座模型融合物理世界理解与预测,解决“边想边快速动”的难题;ManualVLA贯通推理与执行,在复杂任务上平均成功率比此前最优方法高出32%;TwinRL则实现高效在线进化 [49][50][52][53] - 这三项核心技术——LaST₀、ManualVLA、TwinRL——有机串联,构成了公司“推理—执行—进化”的VLA技术三角,旨在推动一体化VLA基础模型范式从论文走向真实产线和场景 [54][55] - 行业知情人士透露,至简动力成立半年即获得密集的顶级资本加持,目前估值已逼近独角兽阵营,这在具身智能赛道中极为罕见 [14]
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心· 2025-12-23 11:34
文章核心观点 - 北京大学、香港中文大学与至简动力团队提出了一种名为ManualVLA的新型“生成-理解-动作”一体化模型,旨在解决现有视觉-语言-动作模型在需要明确目标终态的长时序任务中难以兼顾高层规划与精细操控的挑战 [2][5] - 该模型摒弃了传统分层级联方案,构建了全新的Mixture-of-Transformers通用基础模型架构,通过“规划专家”生成多模态操作说明书,并结合显式与隐式“思维链”推理来指导“动作专家”执行,实现了理解与生成的高度统一 [5] - 实验结果表明,ManualVLA在现实场景任务中的平均成功率相较于分层结构的最新基线方法提升约32%,验证了其统一范式的有效性 [5] 研究背景与挑战 - 当前VLA模型在需要精确定义最终目标状态的长周期任务中面临核心难题:必须执行精确操作以严格对齐预定义的最终场景,并有效集成长周期规划与细粒度控制,同时保持对多样化现实世界环境的泛化能力 [7] - 现有的分层方法依赖人工制作说明书或人类演示视频,在泛化到未见过的最终目标状态方面存在局限性,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA方法陈述 - ManualVLA的核心思想是让模型学会自己生成说明书,再按说明书执行动作 [12] - 在推理阶段,系统接收自然语言指令、当前场景图像和最终目标图像,由“规划专家”生成包含文字描述、像素级坐标和子目标图像的多模态手册,将长时序任务拆解为一系列可控的短阶段 [12] - 模型架构基于Janus-Pro 1B拓展到MoT架构,集成了“规划专家”和“动作专家” [15] - ManualCoT思维链机制通过显式与隐式两条路径影响动作生成:显式路径将目标位置以visual prompt形式叠加在图像上;隐式路径将手册生成时的内部特征通过注意力掩码传递给动作专家 [16][19][20] - 规划专家采用基于VQ的视觉分词器对子目标图像进行离散化建模;动作专家采用基于扩散去噪的方法进行动作建模,并使用SigLIP-large从384×384输入图像中提取高维语义特征 [19] 真机、模拟器、泛化性实验 - **真机实验**:在Franka双臂平台上测试了2D乐高组装、3D乐高组装和物体重新排列三个长周期任务 [23] - 规划专家在300个未见过的测试样本上生成了高质量的中间图像,例如2D乐高组装的PSNR达29.01,物体重新排列的FID分数为24.46,2D乐高组装的MAE分数为3.23 [23][27] - ManualVLA在所有三个任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了15%到30%,平均成功率高出32% [28] - **仿真实验**:在RLBench的10个仿真任务上取得了70%的平均成功率,超越了SOTA方法π0的63% [31][32] - **消融与泛化实验**:证明说明书中所有模态信息和隐式CoT推理对于解决长周期任务不可或缺,且模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力 [33][36]
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心· 2025-12-18 17:08
研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性,但在需要明确目标终态的长时序任务中,难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题:一是需要执行精确操作以严格对齐预定义最终状态;二是需要将长周期规划与细粒度控制有效集成,同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法,在泛化到未见过的最终目标状态方面存在局限,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出,旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型,让模型学会自己生成多模态操作说明书,再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案,构建了全新的通用基础模型 Mixture-of-Transformers 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同 [5] 核心技术:架构与思维链机制 - 模型基于 MoT 架构,集成了「规划专家」和「动作专家」两个模块,实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制,该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上,构成带有明显操作区域提示的「提示图」,直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家,在潜在空间中提供持续的隐式引导 [19] - 消融实验表明,去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率,说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**:基于互联网机器人数据集,筛选与装配和重排相关的轨迹,构建超过 40 万条示例的预训练集,只更新动作专家,学习抓取、搬运和放置技能 [20] - **第二阶段**:利用基于三维高斯表示的数字孪生工具,对乐高板、积木和常见物体进行三维重建,在虚拟空间中合成上万帧带有精确标注的手册数据,用于训练规划专家 [20][23] - **第三阶段**:在真实双臂平台上通过遥操作采集专家示范轨迹,对规划与动作两个专家进行联合微调,使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能:真机与仿真 - **真机实验**:在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**:规划专家在 300 个未见过的测试样本上生成了高质量的中间图像,例如 2D 乐高组装的 PSNR 达 29.01,物体重新排列的 FID 分数为 24.46,2D 乐高组装的 MAE 分数为 3.23,证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**:在所有三个真实世界长周期任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了 15% 到 30%,平均成功率高出 32% [7][28] - **仿真实验**:在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率,超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明,说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的,两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力,例如在背景变化下任务成功率为 0.65,仅下降 23%,优于基线模型的下降 25% [37]