文章核心观点 - 通用具身智能发展的核心难题是“视觉到行动的鸿沟”,源于数据稀缺和形态异构两大挑战 [2] - 研究团队提出以“指点”作为通用中间表示来弥合这一鸿沟,将复杂的操作指令转化为图像上的点或点序列 [3] - Embodied-R1模型通过引入强化微调范式和定义四种核心指向能力,在多项基准测试中实现了卓越的零样本泛化能力 [8][10][12] 技术框架与核心贡献 - 首创“指向”作为与机器人形态无关的统一中间表示,定义了四种核心具身指向能力:指代表达理解、空间区域指点、功能部位指点、视觉轨迹生成 [12][15] - 构建了大规模专用数据集Embodied-Points-200K,包含约20万个高质量样本用于训练 [15] - 引入强化微调训练范式,通过两阶段课程和多任务奖励函数有效解决了指向任务中的“多解困境” [15][17][18] 模型性能与实验结果 - 模型参数量为30亿,在11项空间推理与指点任务中取得领先成绩 [10] - 在SIMPLEREnv仿真环境中零样本成功率达到56.2%,在8个完全OOD真实任务中成功率高达87.5% [10][27] - 在针对四种核心指向能力的专项测试中,在REG、RRG、OFG和VTG等多个基准上均达到SOTA水平 [24][29] - 在面对光照、背景变化等视觉干扰时表现出强大的环境适应能力和鲁棒性 [31] 训练方法与创新点 - 采用两阶段训练课程:第一阶段训练空间推理能力,第二阶段训练具身指向能力 [15][16] - 设计了一套覆盖全面的奖励函数库,包括格式奖励、精准度奖励、距离奖励、轨迹奖励和环境奖励 [18][22] - 实验证明,强化微调训练方法性能稳定优于监督微调,在处理具有多解困境的指向任务上更有效 [17][23] 行业意义与应用前景 - 这项工作为开发更强大、更通用的具身人工智能指明了新方向,证明小参数量模型通过正确设计也能实现强大的零样本泛化 [32] - “感知-推理-决策”的点式范式为解决机器人领域长期存在的“视觉到行动的鸿沟”问题提供了有效路径 [32] - 该方法不局限于具身数据,可利用通用视觉数据,且独立于机器人形态学,具有广泛的应用潜力 [3]
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心·2025-09-02 08:03