ERMV框架

搜索文档
ERMV框架:针对操作任务的数据增强,显著提升VLA模型跨场景成功率
具身智能之心· 2025-07-28 21:19
研究背景 - 机器人模仿学习依赖4D多视图序列图像,但高质量数据收集成本高且稀缺,限制了视觉-语言-动作(VLA)模型的泛化与应用 [4] - 现有数据增强方法存在局限:传统方法仅针对单张静态图像编辑,多视图编辑依赖固定相机位置,视频生成模型受限于计算成本和误差累积 [4] 核心挑战与解决方案 - ERMV框架通过单帧编辑和机器人状态条件,高效编辑整个多视图序列,解决动态视图和长时间范围内的几何与外观一致性、低计算成本下扩大工作窗口、确保关键对象语义完整性等挑战 [6] 视觉引导条件 - 采用视觉引导策略解决文本提示歧义问题,通过图像修复或手动编辑生成目标引导图像,经CLIP编码器处理为嵌入向量,确保编辑在所有视图和时间步中一致传播 [7] - 数学表达:$${\mathcal{C}}_{g u i d e}=E_{C L I P}\big(x_{g u i d e}^{\prime}\big)$$ [8] 机器人与相机状态注入 - 注入相机位姿、机器人动作、运动动态条件等状态信息,经MLP和位置编码处理后输入网络,确保准确渲染场景 [9][12] 稀疏时空模块(SST) - 通过稀疏采样将长序列问题重构为单帧多视图问题,在固定计算预算下处理更宽的时间范围,降低计算需求 [10] - 建模联合概率分布学习稀疏帧集特征,保证时空一致性 [13] 极线运动感知注意力(EMA-Attn) - 通过学习运动诱导的像素偏移,适应动态场景,确保几何一致性 [14] - 注意力计算:$$A t t e n t i o n_{E M A}(q_{i},K_{j},V_{j})=\sum_{m=1}^{M}s o f t m a x\bigg(\frac{q_{i}\cdot k_{j,m}}{\sqrt{d_{k}}}\bigg)v_{j,m}$$ [18] 反馈干预机制 - 引入多模态大语言模型(MLLM)作为自动检查器,对比原始图像和生成图像,检查关键对象一致性 [21] - 仅在模型出错时请求专家介入,最小化标注负担 [21] 扩散模型基础 - 基于潜在扩散模型(LDM),在潜在空间中进行扩散过程,编码器将图像映射为潜在表示,模型训练目标是预测添加的噪声 [23] 仿真环境实验 - ERMV在SSIM、PSNR、LPIPS等指标上大幅优于单帧编辑方法Step1XEdit,体现优异的时空一致性 [25][27] - 用ERMV增强数据训练的RDT和Diffusion Policy模型在原始场景和未知杂乱场景中的成功率显著高于基线 [27][28] 真实世界实验 - ERMV能成功编辑真实机器人操作序列,准确保留核心对象的形态和运动 [29] - ERMV增强数据训练的ACT模型在真实世界中的平均成功率从0.52提升至0.91,未知场景从0.02提升至0.89 [30][32] 扩展能力 - 基于单帧初始图像和动作序列,ERMV可预测生成多视图时空图像序列,作为低成本策略验证工具 [35] - 将仿真图像编辑为真实风格,生成"伪真实"4D轨迹,减少对高保真物理仿真的依赖 [37] 消融实验 - 移除运动动态条件和EMA-Attn后,模型无法生成真实运动模糊 [39] - SST模块相比密集采样减少50%GPU内存需求,提升模型性能 [41][43] - 禁用反馈干预机制后,长序列编辑出现质量下降和语义偏移 [43]