RAAP(检索增强型可供性预测)
搜索文档
让机器人学会手往哪儿伸、怎么操作,东大团队给了新解法
机器之心· 2026-04-09 07:57
本文的第一作者为东南大学硕士生庄启源,合作者为徐赫洋、汪宜俊、赵欣阳、李洋洋。通讯作者为东南大学青年首席教授魏秀参,研究方向为计算机视觉、机 器学习与机器人。 在具身智能领域,可供性(affordance)预测 —— 即 让机器人从视觉观测中理解 "在哪里操作"(接触点)与 "如何操作"(动作方向) —— 是实现精细化机器人 操作的基础之一。精细操作要求机器人不仅能定位到物体的可交互区域,更要掌握接触后的准确运动方向,例如判断抽屉把手的精确拉动方向完成开合。 当前主流方法主要分为两大范式:基于检索的方法无需大量机器人数据,却受限于单一匹配的脆弱性与未见类别的覆盖盲区;基于训练的大规模模型虽能学习可 迁移视觉模式,却频繁出现接触点定位不准、动作方向预测错误的问题,难以支撑精细操作所需的空间精度。 为突破这一瓶颈, 东南大学魏秀参团队提出了 RAAP (检索增强型可供性预测)。RAAP 将 affordance 分解为静态接触点与动态动作方向两个分量并针对二者设 计互补推理机制:接触点通过与 Top-1 检索参考的稠密特征匹配可靠迁移;动作方向则由全新的检索增强对齐模型负责,通过聚合多个参考样本与双权重注意力机 ...