REALM：机器人操作任务的real2sim验证基准

文章核心观点 - 捷克理工大学与阿姆斯特丹大学的研究团队构建了一个名为REALM的高保真仿真环境与基准，旨在解决Vision-Language-Action模型在机器人操纵任务中泛化能力评估的挑战，其核心目标是建立仿真与真实世界性能的强相关性，以实现大规模、低成本的评估 [2] 相关工作与差异化优势 - 现有机器人操纵泛化基准存在显著局限，如支持的扰动类型少、技能和物体种类有限、仅支持单视角等 [3] - REALM在多个维度上具有全面优势：涵盖6种视觉、8种语义、7种行为扰动，支持7项技能、10个场景和超过3500个物体，同时具备高保真视觉、控制对齐和多视角功能 [3][4] - 现实-仿真差距源于视觉保真度不足和控制对齐缺失，REALM通过重新设计机器人控制器并优化物理参数，同时提升了视觉与控制的真实性 [4] 基准设计核心要素 - 技能与任务集：基于DROID数据集设计了7项核心操纵技能，包括拾取、放置、推动、旋转、堆叠、打开、关闭，基准包含两个任务集 [5] - 扰动设计：为系统测试泛化能力，设计了15种扰动，覆盖视觉、语义、行为三大类别 [6] - 评估指标与控制对齐：采用分层进度指标替代二元成功率，对技能进行更细粒度的性能反映；通过重新实现控制器并优化14个物理参数，实现了仿真与真实轨迹的高一致性 [9] 真实-仿真对齐与验证 - 通过近800组轨迹对测试验证，仿真与真实世界的任务进度呈现强线性相关，所有设置下p值小于0.001，证明仿真是真实世界性能的可靠代理 [11] - 在验证视觉差距时，模型在真实与仿真帧上的注意力图余弦相似度得分达0.85，表明高保真视觉设计有效避免了模型预测失真 [11] 关键实验结果与发现 - 视觉泛化：纯视觉扰动对模型性能有显著影响，平均RMSD达0.12以上，其中视角变化和场景干扰物影响最显著 [14] - 语义泛化：语义扰动对模型构成巨大挑战，需要世界知识和人类需求关联的扰动影响最显著 [17] - 行为泛化：行为扰动是最具挑战性的类别，模型在跨物体泛化时表现极差，面对未见过的物体时性能大幅下降；物体姿态扰动导致两模型性能均下降0.12 [18] - 鲁棒性与任务完成：-FAST模型在所有扰动下的平均任务进度最高，在9/10任务中成功率领先；所有模型完成简单任务的平均时间长达20-30秒，且方差较大，说明在未知环境中难以高效稳定地完成任务 [19]