Workflow
长时程机器人操纵
icon
搜索文档
从长时程推理到精准操纵:LoLA 破解机器人多步任务执行难题
具身智能之心· 2025-12-29 08:04
文章核心观点 - 由中科院、国科大与微软研究院联合团队提出的LoLA框架,通过“长时程潜动作学习”和“多模态编码 - 状态感知融合 - 动作生成”的三层架构,首次实现了长时程语言引导机器人操纵的高效执行,为解决通用机器人在真实场景落地提供了全新解决方案 [1] 现有技术挑战 - 现有视觉-语言-动作模型多聚焦于短时任务,在长时程场景下面临三大核心挑战:时序上下文理解缺失、真实场景状态漂移风险、资源消耗与泛化矛盾 [2][3] - 传统单帧模型忽视历史信息关联,难以追踪多步任务状态,导致动作连贯性不足并易出现重复错误 [4] - 在长时间交互中,微小扰动会逐渐累积,使系统脱离训练分布,引发任务失败 [5][6] - 长时程数据的采集、标注与训练成本呈指数级增长,且模型处理长序列时计算开销巨大,同时难以泛化到不同机器人平台与任务场景 [7][8] LoLA技术架构 - LoLA构建了“多模态编码 - 状态感知融合 - 动作生成”的完整三层技术架构 [9] - **第一层:多模态编码**:采用双分支编码策略,兼顾当前精准感知与历史动态捕捉,以平衡长序列信息保留与计算效率 [11] - **第二层:状态感知潜表征**:该核心融合模块旨在解决视觉-语言表征与机器人物理动作空间的对齐问题 [11] - 当前观测编码:处理多视角图像(主视角、辅助视角、手腕视角),提取高分辨率空间特征,形成当前场景静态快照 [12] - 历史运动编码:采用时空选择性采样策略,将长时程历史帧下采样以降低计算负担,同时保留关键时序信息 [12] - 语言指令融合:将多模态特征与语言指令嵌入拼接,输入预训练视觉-语言模型生成层间键值缓存 [12] - 通过状态transformer并行架构和乘性融合接地机制,构建“具象化锚定”潜空间,实现抽象特征与物理动作空间的精准对齐 [16] - 使用可学习掩码过滤背景干扰,再经潜空间压缩得到紧凑的动作相关表征 [16] - **第三层:动作生成**:基于条件流匹配构建动作专家,将多模态表征转化为平滑连贯的动作序列 [14] - 采用包含28层transformer的解码器架构,以状态感知潜表征输出的键值对为条件,建模动作时序结构 [16] - 通过端到端训练与推理,从纯噪声中逐步解码出精准、连续的多步动作序列 [16] 性能验证 - **仿真基准性能突破**:在SIMPLER和LIBERO两大权威基准测试中显著超越现有先进模型 [15] - 在SIMPLER基准的Google Robot任务中,视觉匹配与变体聚合设置下平均成功率分别达61.5%和54.6% [17] - 在SIMPLER基准的WidowX Robot多步任务中,平均成功率达71.9%,较π₀模型相对提升20.6% [17] - 在LIBERO基准中,覆盖四大任务套件,平均成功率达96.2%,其中长时程任务套件成功率达88.2% [18] - **真实场景跨平台泛化**:在Franka平台设计的28个任务中,单步任务平均成功率46.1% [21] - 在长时程任务中,完成至少两个子任务的成功率最高达33.1%,是π₀模型的2.67倍 [20][21] - **核心组件消融验证**:验证了关键模块的必要性 [23] - 引入多历史帧使平均成功率提升11.4% [24] - 状态感知潜表征模块单独贡献14.5%的性能提升 [24] - 多历史帧与状态感知潜表征联合使用时,模型达到最优性能57.3% [24] 技术贡献与行业影响 - LoLA构建了“高效编码 - 精准接地 - 连贯生成”的技术范式 [25] - 通过时空选择性采样解决长序列处理效率问题,通过状态感知潜表征模块破解模态鸿沟难题 [25] - 其100亿参数规模的模型架构、1100万条真实机器人轨迹的预训练数据以及开源方案,为相关领域提供了统一研究平台 [25] - 该框架推动通用机器人从短时简单任务向长时复杂任务跨越,加速自主机器人在家庭服务、工业生产等真实场景的落地进程 [25] 当前局限与未来方向 - 在复杂扰动场景下的鲁棒性不足,面对突发故障的恢复能力有限 [26] - 端到端长时程任务的绝对成功率仍有提升空间,需进一步降低误差累积 [26] - 未来可探索动态闭环恢复机制与在线自适应调整策略,以增强在真实复杂环境中的容错能力 [26] - 可优化模型轻量化设计,以提升推理速度与部署灵活性 [26]