Workflow
跨模态迁移
icon
搜索文档
Physical Intelligence最新π0.5+ego!从人类视频到机器人技能的跨模态迁移
具身智能之心· 2025-12-31 12:00
文章核心观点 - 来自Physical Intelligence与佐治亚理工学院的联合团队提出的“+ego”框架,通过“规模化预训练 + 跨模态协同微调”的核心思路,首次揭示了视觉-语言-动作模型中“人类-机器人技能迁移”的涌现性规律,为通用机器人政策的规模化训练提供了全新路径[1] - 该框架无需显式对齐即可实现跨模态迁移,仅需数十小时人类数据即可让机器人性能显著提升,并覆盖场景、物体、任务的三维泛化[2] - 研究的核心贡献在于揭示了“规模化多样化预训练催生涌现能力”的规律,仅需数十小时人类数据即可让机器人掌握未见过的新任务逻辑与场景适应能力,为低成本、规模化训练通用机器人提供了新范式[33] 问题根源:人类-机器人技能迁移的挑战 - **模态差异鸿沟**:人类与机器人的视觉观测(第一视角 vs 机器人端视角)和运动学特征(人手动作 vs 机械臂轨迹)存在本质差异,缺乏天然映射关系[3] - **数据对齐难题**:传统方法需通过AR/VR叠加、手动标注等方式实现人类与机器人动作的显式对齐,成本高且泛化性差[4] - **数据效率瓶颈**:人类视频虽场景丰富,但缺乏机器人所需的精准动作标签与力反馈信息,单独训练难以形成有效政策[5] 方案设计:+ego的三层技术体系 - **第一层:人类数据采集与标准化处理** - 采用头戴式相机加双腕部相机的组合,同步捕捉第一视角场景和手部交互细节,以模拟机器人的末端执行器观测视角[8] - 将人类手部动作转化为与机器人末端执行器一致的6自由度相对姿态轨迹,通过手掌、中指、无名指的3D关键点定义“人类端效应器”,实现动作表征的粗粒度对齐[13] - 为人类视频添加“高层子任务描述”与“低层动作序列”双级标签,构建与机器人数据结构一致的标注体系[13] - 采集了14小时人类交互数据,涵盖清理台面、整理物品、鸡蛋分拣等任务,覆盖14个日常场景与800多个交互物体[13] - **第二层:模型训练框架——无显式对齐的协同微调** - 以高性能VLA模型为基础,将人类数据视为额外模态进行协同训练[9] - 沿用VLM backbone加动作解码器结构,通过mean-pooling提取跨模态统一表征,无需修改模型架构即可融入人类数据[11] - 对人类与机器人数据采用完全相同的训练目标,包括基于FAST离散动作token的next-token预测与连续动作的流匹配损失进行低层动作预测,以及基于自然语言标注的序列预测进行高层子任务预测[13] - 微调阶段采用“50%人类泛化任务数据 + 50%机器人近邻任务数据”的混合训练策略[13] - **第三层:泛化基准测试体系** - 构建了覆盖“场景-物体-任务”三维度的泛化基准,以精准评估跨模态迁移效果[12] - 评估指标上,短时长任务采用二元成功率,长时长任务采用正确放置物体数量或比例[16] 核心发现:多样化预训练驱动的涌现性迁移 - **迁移能力随预训练多样性涌现** - 当VLA模型的预训练数据覆盖足够多的场景、任务与机器人模态时,人类-机器人迁移能力会在突破临界阈值后显著提升[16] - 无预训练或低多样性预训练(≤25%)时,人类数据无法带来性能提升,甚至出现负迁移[17] - 高多样性预训练(≥75%)时,跨模态迁移效果显著,在鸡蛋分拣任务中,机器人仅通过人类视频学习,分拣准确率从57%提升至78%,正确放置鸡蛋数量平均增加4个[17] - 加入跨机器人模态预训练后,迁移性能进一步提升,在场景泛化任务中成功率最高翻倍(整理梳妆台任务:25%→50%;香料整理任务:32%→71%)[17] - **涌现的跨模态统一表征** - TSNE分析显示,随着预训练多样性增加,人类与机器人数据的潜在表征从完全分离逐渐趋于重叠[18] - 低多样性预训练时,模型对人类与机器人数据形成独立表征,无法共享语义与动作知识[22] - 高多样性预训练后,两种模态的表征空间高度对齐,模型自动学习到“动作意图”层面的抽象共享特征[22] - **人类数据与机器人数据的互补价值** - 人类数据可视为“低成本跨模态数据源”,其性能接近甚至超越非目标机器人数据[20] - 在鸡蛋分拣与梳妆台整理任务中,同等规模的人类数据与目标机器人数据的微调效果相当[24] - 在清理台面任务中,人类数据虽略逊于目标机器人数据,但优于跨型号机器人数据(UR5→ARX),证明了人类数据的泛化性优势[26] - 高层子任务与低层动作预测的协同训练至关重要,单独依赖某一层级的迁移效果有限[27] - **硬件优化的关键作用** - 腕部相机的加入显著提升特定任务性能[29] - 在清理台面与梳妆台整理任务中,腕部相机提供的手部-物体交互细节使成功率提升10%-15%[31] - 在香料整理与鸡蛋分拣任务中,因场景开阔、物体特征明确,腕部相机的增益不明显[31] - **任务泛化的scaling规律** - 单独增加预训练多样性无法让机器人掌握未见过的任务逻辑,而人类数据的引入能实现突破性提升[31] - 在鸡蛋分拣任务中,仅用机器人数据微调时,即使预训练多样性达到100%,性能仍处于较低水平[35] - 加入人类数据后,性能随预训练多样性呈线性增长,证明多样化预训练为人类数据的知识迁移提供了必要基础[35] 局限与未来方向 - **数据规模与场景覆盖**:当前仅使用14小时人类数据,未来可结合被动采集的日常人类视频,进一步扩大数据规模与场景多样性[35] - **动作表征精细化**:人类手部动作的抓取状态(如握力大小)尚未精准建模,需结合触觉传感器等设备提升动作表征的精细度[35] - **长时程任务迁移**:现有任务以中短时长为主,未来需探索复杂长时程任务(如烹饪、组装)的跨模态迁移规律[35] - **模型规模与效率平衡**:当前依赖大规模VLA模型,需探索轻量化模型的跨模态迁移能力,以降低部署门槛[35]