Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心·2025-12-19 08:05

具身纪元 . 以下文章来源于具身纪元 ,作者具身纪元 见证具身浪潮,书写智能新纪元 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 姚顺雨的在人工智能下半场的文章《The Second Half》,他说:在AI的下半场,技术方案已经很成熟,瓶颈变成了评估。 在具身智能的下半场,模型评估更加重要,也更加复杂。 完整评估单一策略,本身就不容易。 传统的评估方法需要在真机上去测试 ,困难也接踵而至: 第一点,成本高 :在真实硬件上进行大规模测试既费时又费力 尤其是当需要对比多个不同的策略版本时。 如果要提升测试效率,多个硬件的部署在所难免,这又是额外的成本。 控制测评变量的沉默成本也不小,比如要减轻光照的影响,要挑同样光线的情况去做测评 第二点,覆盖面有限: 测评需要设置不同的情况来测试模型是否能够依旧表现出色,但在真实场景中很难穷尽所有现实的情况,比如干扰物、杂乱的桌面和光线等 第三点,安全性风险: 测试机器人的安全性,往往意味着要给机器人去尝 ...