ERMV框架 - 财报，业绩电话会，研报，新闻

ERMV框架

搜索文档

具身智能之心· 2025-07-28 21:19

研究背景 - 机器人模仿学习依赖4D多视图序列图像，但高质量数据收集成本高且稀缺，限制了视觉-语言-动作（VLA）模型的泛化与应用 [4] - 现有数据增强方法存在局限：传统方法仅针对单张静态图像编辑，多视图编辑依赖固定相机位置，视频生成模型受限于计算成本和误差累积 [4] 核心挑战与解决方案 - ERMV框架通过单帧编辑和机器人状态条件，高效编辑整个多视图序列，解决动态视图和长时间范围内的几何与外观一致性、低计算成本下扩大工作窗口、确保关键对象语义完整性等挑战 [6] 视觉引导条件 - 采用视觉引导策略解决文本提示歧义问题，通过图像修复或手动编辑生成目标引导图像，经CLIP编码器处理为嵌入向量，确保编辑在所有视图和时间步中一致传播 [7] - 数学表达：$${\mathcal{C}}_{g u i d e}=E_{C L I P}\big(x_{g u i d e}^{\prime}\big)$$ [8] 机器人与相机状态注入 - 注入相机位姿、机器人动作、运动动态条件等状态信息，经MLP和位置编码处理后输入网络，确保准确渲染场景 [9][12] 稀疏时空模块（SST） - 通过稀疏采样将长序列问题重构为单帧多视图问题，在固定计算预算下处理更宽的时间范围，降低计算需求 [10] - 建模联合概率分布学习稀疏帧集特征，保证时空一致性 [13] 极线运动感知注意力（EMA-Attn） - 通过学习运动诱导的像素偏移，适应动态场景，确保几何一致性 [14] - 注意力计算：$$A t t e n t i o n_{E M A}(q_{i},K_{j},V_{j})=\sum_{m=1}^{M}s o f t m a x\bigg(\frac{q_{i}\cdot k_{j,m}}{\sqrt{d_{k}}}\bigg)v_{j,m}$$ [18] 反馈干预机制 - 引入多模态大语言模型（MLLM）作为自动检查器，对比原始图像和生成图像，检查关键对象一致性 [21] - 仅在模型出错时请求专家介入，最小化标注负担 [21] 扩散模型基础 - 基于潜在扩散模型（LDM），在潜在空间中进行扩散过程，编码器将图像映射为潜在表示，模型训练目标是预测添加的噪声 [23] 仿真环境实验 - ERMV在SSIM、PSNR、LPIPS等指标上大幅优于单帧编辑方法Step1XEdit，体现优异的时空一致性 [25][27] - 用ERMV增强数据训练的RDT和Diffusion Policy模型在原始场景和未知杂乱场景中的成功率显著高于基线 [27][28] 真实世界实验 - ERMV能成功编辑真实机器人操作序列，准确保留核心对象的形态和运动 [29] - ERMV增强数据训练的ACT模型在真实世界中的平均成功率从0.52提升至0.91，未知场景从0.02提升至0.89 [30][32] 扩展能力 - 基于单帧初始图像和动作序列，ERMV可预测生成多视图时空图像序列，作为低成本策略验证工具 [35] - 将仿真图像编辑为真实风格，生成"伪真实"4D轨迹，减少对高保真物理仿真的依赖 [37] 消融实验 - 移除运动动态条件和EMA-Attn后，模型无法生成真实运动模糊 [39] - SST模块相比密集采样减少50%GPU内存需求，提升模型性能 [41][43] - 禁用反馈干预机制后，长序列编辑出现质量下降和语义偏移 [43]