模型算术法
搜索文档
李弘扬老师团队最新工作X0!超低成本高效实现机器人操作任务~
具身智能之心· 2025-12-24 12:01
文章核心观点 - 公司提出了一套高效的三阶段技术理念,旨在以远低于行业常规的成本,在真实场景的服装操控任务中实现100%的可靠性[2] - 核心观点是实现机器人技能精通的关键在于战略对齐,而非单纯依赖数据与算力的规模堆砌[4] 方法体系:模式一致性 - 模式一致性旨在解决人类演示分布、模型习得策略分布与真实场景执行分布之间的动态对齐问题,以最小化导致任务失败的分布偏移[3][8] - 传统模仿学习流程存在两种潜在不一致性:训练与部署间的协变量偏移,以及由推理函数导致的部署偏差[11][12] - 通过两种基础策略稳定分布:在数据范围,采用Dagger方法注入在线策略恢复轨迹,并应用时空增强;在推理范围,采用分块时间平滑与实时分块来减少执行抖动[13][14][15][18] - 改进的数据采集与在线策略恢复轨迹显著提升了模型错误恢复能力,既提高了成功率,也降低了每次失败对应的重试次数[21] - 时空增强大幅提升了模型性能,不仅提高了成功率,还增加了单位时间内的任务吞吐量[23] - 推理优化确保了策略预期动作被完美转化为流畅连贯的实机执行,同时提升了任务吞吐量[26] 方法体系:模型算法 - 公司提出了模型算术法,以解决机器人领域迭代研究周期中数据采集成本高、全量重训难以承受的困境[27] - 该方法仅在新采集的数据子集上训练模型,然后通过“在线策略优化引导的权重插值”,将新模型与旧模型合并,融合了从不同数据子集中学到的独特策略流形[27][28] - 合并后的模型在多个任务上的表现,超过了各组成模型中的最优者,也优于用全量数据集一次性训练的基准模型[30] 方法体系:阶段优势 - 针对长时程操控中“同一状态下有多个合理动作可选”的难题,公司提出了更直接的优势信号建模方式[31] - 传统方法通过分别对当前状态和动作后状态打分并取差值来间接获取优势,而公司方法将优势作为直接建模目标,通过配对观测预测状态间的相对进展[31] - 阶段优势法将长时程操控拆解为一系列语义阶段,判断每个动作是否可能推进当前阶段,从而为策略训练提供感知阶段的优势信号[35] - 公司提出的Direct+Stage方法,相比传统的Value-diff方法,能实现更平滑稳定的进展累积,并最终实现了更低的MSTD、更高的SFR与更高的成功率[35][37] 成本与效率成果 - 公司在服装操控任务中实现从0%到100%可靠度的方案,仅需20小时人类演示数据和8台A100 GPU[2] - 该方案成本远低于行业常用方法,后者通常需要数万小时数据和数百台GPU[2]