ReconVLA

搜索文档
ReconVLA:基于重建式VLA模型的机器人感知方法
具身智能之心· 2025-08-30 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wenxuan Song等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 导读: 视觉-语言模型发展极为迅速,视觉-语言-动作(VLA)模型更是乘势而起,正在引领机器人技术走向一个更通用、更智能的新时代。然而,在这些强大模型的背 后,一个根本性的问题正逐渐浮出水面:机器人真的"看准"了吗? 现有的 VLA 模型虽借助海量参数与机器人数据实现了跨模态理解,但在复杂场景与长时序任务中,视觉注意力往往分散,难以稳健地聚焦目标物体,导致抓取 或操作错误。过去通过显式输入裁剪图像或预测边框的方式来改进视觉定位,却并未从根本上提升注意力分配,对性能增益有限。如何在不增加显式推理负担的 前提下,引导模型将视觉注意力精准锁定于目标区域,成为突破瓶颈的关键。 当我们给机器人一个待执行的指令,例如指令"把蓝色积木放到粉色积木上",模型必须把视觉焦点锁定在"蓝色积木"本身。然而大量实证结果显示,现有 VLA ...