Workflow
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心·2025-09-02 08:03

点击按钮预约直播 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 通用具身智能的发展长期受限于一个核心难题:"视觉到行动的鸿沟"(seeing-to-doing gap)。这一鸿沟源于两大挑战: (a) 数据稀缺 ,有限的机器人数据难以将语言和视觉与物理动作充分关联; (b) 形态异构 ,多样的机器人形态阻碍了知识的有效迁移。 尽管现有的视觉-语言-动作(VLA)模型在模仿专家演示方面表现出色,但在新环境中,其性能往往会急剧下降。无论是端到端模型存在的知识遗忘问题,还是 模块化模型易于出现级联故障的弊端,都未能有效解决这一根本性问题。如何让机器人真正"理解"它所看到的,并将其转化为精准的物理操作,是推动通用机器 人发展的关键。 在机器人研究中,如何让"看到的"顺利转化为"做到的",一直是一个难题。虽然近年来的视觉语言模型(VLM)和视觉语言动作模型(VLA)大幅提升了机器人 理解场景与指令的能力,但当机器人真正要操作物体时,性能常常大打折扣。VLM本身具有强大的环境感知和视觉理解能力,但基于VLM进行继续训练的端到 端VLA却几乎完全失去了零样本的操作能力 ...