Google 新作背后：机器人测评Evaluation范式正在发生变化

文章核心观点 - 在具身智能发展的下半场，模型评估的重要性日益凸显，并已成为技术发展的关键瓶颈[2][3] - 传统基于真实硬件或物理仿真的评估方法面临成本高、覆盖面有限和安全性风险等三重困境[4][5][6] - Google DeepMind的最新研究提出了一种评估新范式：利用视频生成模型（世界模型）作为机器人策略的通用评估器，标志着评估环境的范式变化[8][13] - 基于世界模型的评估方法，如Veo (Robotics)模拟器，能够有效预测机器人在常规任务、分布外泛化及安全性方面的表现，并与真实世界结果高度相关[27][36][61] - 尽管前景广阔，但世界模型评估在物理规律一致性、生成长度和自动化评分方面仍存在局限，未来评估将是具身智能需要解决的核心问题[65][66][72] 传统评估方法的困境 - 成本高昂：在真实硬件上进行大规模测试费时费力，对比多个策略版本或部署多台硬件会带来额外成本[4] - 覆盖面有限：真实场景难以穷尽所有现实情况（如干扰物、杂乱环境、光线变化），影响测评的全面性[5] - 安全性风险：测试机器人安全性需尝试危险动作，可能损坏昂贵设备或对人类造成伤害，在现实中不可接受[5][6] 评估新范式：从传统仿真到世界模型 - 传统物理仿真的挑战：高保真模拟需要大量真实世界资产和精细的物理建模，获取和定制海量多样物体模型困难[11]；对非刚体或复杂接触动态的模拟存在局限，且存在模拟与现实之间的视觉差距（Sim-to-Real gap）[11][12] - 世界模型的核心思想：让机器人策略在模型“想象”出的世界中运行，以预测其表现，世界模型充当内部仿真器，支持进行虚拟试验[15] - 世界模型的优势：数据驱动的世界模型不依赖人工物理建模，而是从大规模视觉数据中学习现实动态[16]；同一模型可模拟多种场景和对象，生成视觉逼真且物理合理的预测画面，为解决资产、真实性和视觉域差距问题提供新思路[17] Google DeepMind的Veo (Robotics)模拟器 - 模型基础：基于Google的Veo2文生视频模型构建，该模型采用潜空间扩散架构，能生成高质量连贯视频[21] - 关键改造： - 动作条件化：模型接收当前图像观察和机器人未来的动作指令序列，通过想象动作后果来生成未来视频帧[24] - 多视角一致性：训练模型能同时生成多个摄像头视角（如头顶、侧面、手腕）的视频，并保持时空一致性[24] - 工作流程：输入机器人当前画面、用户文本指令和计划动作序列，模型生成展示世界变化的视频，通过分析视频内容对策略进行打分[30] Veo模拟器的三大评估场景与验证 - 常规任务评估：在机器人熟悉的任务和环境中进行测试，使用ALOHA 2双臂机器人平台执行5项基本任务[32][33]；Veo模拟器能够非常准确地预测GROD模型8种不同策略的优劣排名，模拟结果与现实世界表现一致[36] - 分布外泛化评估：利用生成式AI的图像编辑能力，创造从未见过的测试场景，无需重新布置真实场地[43]；创造了四种维度的变化：背景颜色、添加小型干扰物（3-4英寸毛绒玩具）、添加大型干扰物（10-12英寸毛绒玩具）、替换操作物体为陌生物体[44]；主要发现包括模拟器能生成符合物理规律的高保真视频，并成功预测出更换操作物体对性能影响最大，更换背景次之，添加干扰物影响较小的泛化难度排名[46][48] - 安全性红队测试：在模拟器中安全地测试潜在危险行为，例如指令目标旁有人手或危险物品的场景[51]；模拟结果预测了不安全行为（如撞到人手、压碎屏幕），并在现实中用道具复现后得到证实，证明其可作为部署前的安全过滤器[52] - 验证方法：进行了超过1600次真实世界机器人评估实验，将每条真实轨迹与模拟视频对比[57]；关键指标显示预测与现实强相关：皮尔逊相关系数高达0.88-0.91，Mean Maximum Rank Violation数值极低表明排名一致性高[60][61]；模拟器预测的相对排名准确，但绝对成功率通常比现实略偏保守[62] 世界模型评估的局限性与未来展望 - 当前局限性： - 物理规律一致性：视频生成在涉及精细物体接触时可能出现幻觉（如物体穿模、凭空出现或消失），物理仿真在此方面更擅长[65] - 生成时长限制：目前生成视频片段仅约8秒，模拟长周期复杂任务需要实现长时程生成，而当前模型在长时间滚动上易累积误差[66] - 自动化评分：视频评分仍部分依赖人工观看打分，而传统仿真或实验可直接获取环境状态进行量化[66] - 未来展望：评估是具身智能下半场需要解决的核心问题，公平的跨模型评价、评估任务与指标设置、以及结果的可复现性均有待深入讨论[69][70][71]；具备有效评估能力是训练出最佳模型的关键[72]