REALM:机器人操作任务的real2sim验证基准
具身智能之心·2025-12-27 18:03

文章核心观点 - 捷克理工大学与阿姆斯特丹大学的研究团队构建了一个名为REALM的高保真仿真环境与基准,旨在解决Vision-Language-Action模型在机器人操纵任务中泛化能力评估的挑战,其核心目标是建立仿真与真实世界性能的强相关性,以实现大规模、低成本的评估 [2] 相关工作与差异化优势 - 现有机器人操纵泛化基准存在显著局限,如支持的扰动类型少、技能和物体种类有限、仅支持单视角等 [3] - REALM在多个维度上具有全面优势:涵盖6种视觉、8种语义、7种行为扰动,支持7项技能、10个场景和超过3500个物体,同时具备高保真视觉、控制对齐和多视角功能 [3][4] - 现实-仿真差距源于视觉保真度不足和控制对齐缺失,REALM通过重新设计机器人控制器并优化物理参数,同时提升了视觉与控制的真实性 [4] 基准设计核心要素 - 技能与任务集:基于DROID数据集设计了7项核心操纵技能,包括拾取、放置、推动、旋转、堆叠、打开、关闭,基准包含两个任务集 [5] - 扰动设计:为系统测试泛化能力,设计了15种扰动,覆盖视觉、语义、行为三大类别 [6] - 评估指标与控制对齐:采用分层进度指标替代二元成功率,对技能进行更细粒度的性能反映;通过重新实现控制器并优化14个物理参数,实现了仿真与真实轨迹的高一致性 [9] 真实-仿真对齐与验证 - 通过近800组轨迹对测试验证,仿真与真实世界的任务进度呈现强线性相关,所有设置下p值小于0.001,证明仿真是真实世界性能的可靠代理 [11] - 在验证视觉差距时,模型在真实与仿真帧上的注意力图余弦相似度得分达0.85,表明高保真视觉设计有效避免了模型预测失真 [11] 关键实验结果与发现 - 视觉泛化:纯视觉扰动对模型性能有显著影响,平均RMSD达0.12以上,其中视角变化和场景干扰物影响最显著 [14] - 语义泛化:语义扰动对模型构成巨大挑战,需要世界知识和人类需求关联的扰动影响最显著 [17] - 行为泛化:行为扰动是最具挑战性的类别,模型在跨物体泛化时表现极差,面对未见过的物体时性能大幅下降;物体姿态扰动导致两模型性能均下降0.12 [18] - 鲁棒性与任务完成:-FAST模型在所有扰动下的平均任务进度最高,在9/10任务中成功率领先;所有模型完成简单任务的平均时间长达20-30秒,且方差较大,说明在未知环境中难以高效稳定地完成任务 [19]

REALM:机器人操作任务的real2sim验证基准 - Reportify