文章核心观点 - 北京大学、香港中文大学与至简动力团队提出了一种名为ManualVLA的新型“生成-理解-动作”一体化模型,旨在解决现有视觉-语言-动作模型在需要明确目标终态的长时序任务中难以兼顾高层规划与精细操控的挑战 [2][5] - 该模型摒弃了传统分层级联方案,构建了全新的Mixture-of-Transformers通用基础模型架构,通过“规划专家”生成多模态操作说明书,并结合显式与隐式“思维链”推理来指导“动作专家”执行,实现了理解与生成的高度统一 [5] - 实验结果表明,ManualVLA在现实场景任务中的平均成功率相较于分层结构的最新基线方法提升约32%,验证了其统一范式的有效性 [5] 研究背景与挑战 - 当前VLA模型在需要精确定义最终目标状态的长周期任务中面临核心难题:必须执行精确操作以严格对齐预定义的最终场景,并有效集成长周期规划与细粒度控制,同时保持对多样化现实世界环境的泛化能力 [7] - 现有的分层方法依赖人工制作说明书或人类演示视频,在泛化到未见过的最终目标状态方面存在局限性,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA方法陈述 - ManualVLA的核心思想是让模型学会自己生成说明书,再按说明书执行动作 [12] - 在推理阶段,系统接收自然语言指令、当前场景图像和最终目标图像,由“规划专家”生成包含文字描述、像素级坐标和子目标图像的多模态手册,将长时序任务拆解为一系列可控的短阶段 [12] - 模型架构基于Janus-Pro 1B拓展到MoT架构,集成了“规划专家”和“动作专家” [15] - ManualCoT思维链机制通过显式与隐式两条路径影响动作生成:显式路径将目标位置以visual prompt形式叠加在图像上;隐式路径将手册生成时的内部特征通过注意力掩码传递给动作专家 [16][19][20] - 规划专家采用基于VQ的视觉分词器对子目标图像进行离散化建模;动作专家采用基于扩散去噪的方法进行动作建模,并使用SigLIP-large从384×384输入图像中提取高维语义特征 [19] 真机、模拟器、泛化性实验 - 真机实验:在Franka双臂平台上测试了2D乐高组装、3D乐高组装和物体重新排列三个长周期任务 [23] - 规划专家在300个未见过的测试样本上生成了高质量的中间图像,例如2D乐高组装的PSNR达29.01,物体重新排列的FID分数为24.46,2D乐高组装的MAE分数为3.23 [23][27] - ManualVLA在所有三个任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了15%到30%,平均成功率高出32% [28] - 仿真实验:在RLBench的10个仿真任务上取得了70%的平均成功率,超越了SOTA方法π0的63% [31][32] - 消融与泛化实验:证明说明书中所有模态信息和隐式CoT推理对于解决长周期任务不可或缺,且模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力 [33][36]
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心·2025-12-23 11:34