Workflow
速度提升3倍,CoT推理助力VLA!ECoT-Lite:融合具身机器人推理改善策略的几种机制
具身智能之心·2025-08-27 08:04

具身思维链推理(ECoT)方法 - 具身思维链推理(ECoT)通过将机器人动作预测分解为中间推理步骤(如物体位置识别、子任务规划或可操作性预测)来提升策略泛化能力,无需额外收集机器人演示数据 [3] - ECoT方法显著提高策略对新场景、新物体和新任务指令的泛化能力,但伴随训练数据需附带详细推理指令以及推理速度较慢的成本(单次动作预测需几秒钟) [3] ECoT-Lite优化方案 - 提出ECoT-Lite轻量替代方法,包括推理预训练、推理丢弃和推理支架等变体,避免常规链式思维推理的缺点同时保留大部分泛化好处 [6][8] - ECoT-Lite在LIBERO模拟基准上取得最先进性能(准确率约90%),在BridgeData V2评估中超越最先进传统VLA模型10-19%,推理速度从1-1.2Hz提升至3.5Hz以上 [8][54] 性能机制假设与验证 - 假设1(表征学习):推理步骤改善模型内部表征,使策略关注推理要求预测的特征;推理预训练和推理丢弃方法显著提升性能(LIBERO上推理丢弃达89.4%准确率) [24][54][63] - 假设2(学习进程):推理作为隐式学习课程,帮助模型从简单任务逐步过渡到完整动作预测;推理支架方法对基线性能有小幅提升(+2.9%) [26][87] - 假设3(表达能力):增加token序列长度增强模型表达能力;但思考标记(thinking tokens)方法反而降低性能(平均下降3.8%),表明主要好处来自语义推理而非计算资源扩展 [28][88] 实验环境与结果 - 在LIBERO-90和BridgeData V2环境中评估,要求策略超越训练数据泛化;LIBERO-90包含90个任务,BridgeData V2评估包括任务分布内泛化、运动泛化、空间关系和未见物体 [41][42] - 完整ECoT在LIBERO-90上达90.8%准确率,推理丢弃达89.4%,推理预训练达87.1%;在BridgeData V2上,ECoT仍是最优但ECoT-Lite速度提升约3倍 [54][58][61] 方法选择建议 - 完整ECoT最大化性能但推理速度慢(1-1.2Hz);推理丢弃在少任务领域表现优异且支持测试时灵活开启推理;推理预训练在多样化任务领域更有效且不需要成对推理-动作数据 [90][92] - 推荐使用完整ECoT追求最高性能,推理丢弃用于少任务领域或需测试时推理,推理预训练用于多样化任务领域或有无配对数据场景 [92] 局限性 - ECoT-Lite仍需机器人推理训练数据,其提取可能困难且昂贵;策略表达能力可能不是VLA瓶颈,思考标记方法未改善性能 [93] - 实验保持策略架构、训练超参数和推理语料库不变,未来可优化推理预训练以支持跨本体推理迁移,减少对成对数据依赖 [93]