AAAI 2026杰出论文奖 | ReconVLA：具身智能研究首次获得AI顶级会议最佳论文奖

行业意义与认可 - 具身智能（Embodied Intelligence / Vision-Language-Action）研究获得AI顶级会议的社区级认可，ReconVLA是具身智能方向历史上首次获得AAAI Outstanding Paper Awards的研究工作，标志着该领域已成为人工智能研究的核心问题之一[2] - 这项认可不仅是对单一模型或指标的认可，更是对具身智能作为通用智能核心范式之一的肯定[2] 现有技术瓶颈 - 现有Vision-Language-Action模型的一个基础但被长期忽视的问题是视觉注意力难以稳定、精准地聚焦于任务相关目标，容易被无关物体或背景干扰，导致操作失败[7] - 已有缓解方法未能从根本上改变模型自身的视觉表征与注意力分配机制，提升效果有限[8] ReconVLA核心创新 - 提出一种重建式Vision-Language-Action模型，其核心思想是通过要求模型重建目标区域，来约束其必须学会精准关注关键物体，实现隐式视觉定位[9][10] - 模型在生成动作表征的同时，需完成一项辅助任务：重建当前时刻所“凝视”的目标区域[11] - 重建过程由轻量级扩散变换器在潜在空间中完成，通过最小化重建误差，迫使模型在其内部视觉表示中编码关于目标物体的精细语义与结构信息[13] - 该机制更接近人类的视觉凝视行为，而非依赖外部检测器或符号化坐标监督[14] 模型框架与方法 - 整体框架由两个协同分支组成：动作预测分支和视觉重建分支[16][17] - 动作预测分支以多视角图像、自然语言指令与机器人本体状态为输入，生成动作token以驱动机器人[17] - 视觉重建分支利用冻结的视觉tokenizer将目标区域编码为潜在token，主干网络输出重建token以引导扩散去噪过程复原目标区域的视觉表示[17] - 重建损失在像素与潜在空间层面为模型提供了隐式监督，使视觉表征与动作决策紧密耦合[18] 数据与预训练 - 为赋予模型稳定的视觉重建与泛化能力，构建了大规模机器人预训练数据集，包含超过10万条交互轨迹和约200万张图像[21][23] - 数据来源包括BridgeData V2、LIBERO、CALVIN等开源机器人数据集[23] - 利用微调后的Grounding DINO或Yolo等方式，从原始图像中自动生成指令对应的目标物体区域，用于重建监督[23] - 大规模重建预训练显著提升了模型在视觉重建、隐式Grounding以及跨场景泛化方面的能力[21][30] 实验结果与性能 - 在CALVIN仿真基准的ABC→D泛化任务中，ReconVLA的平均完成长度达到3.95，全面领先同期所有对比方法[24][26] - 在CALVIN的ABCD→D长程任务中，平均完成长度为4.23，完整任务成功率达70.5%[24][26] - 在极具挑战的长程任务“stack block”上，ReconVLA的成功率达到79.5%，远高于Baseline的59.3%[24] - 对比Explicit Grounding和COT Grounding方法，ReconVLA获得了远高于前两者的成功率，表明其方法能实现更精确的注意力、更高的任务成功率以及更简单的模型架构[27] 消融实验与机制分析 - 消融实验表明，重建目标区域机制具有显著效果，使模型专注于目标物体，避免被无关背景干扰[28][29] - 全图重建仍然优于仅有动作监督的基线，但视觉冗余使得在未知环境下效果受限[28] - 大规模预训练显著提升了模型在视觉重建、隐式Grounding及跨场景泛化的能力[30] 真实世界应用与泛化 - 在基于AgileX PiPer六自由度机械臂的真实机器人实验中，ReconVLA在叠碗、放水果、翻杯与清理餐桌等任务上均显著优于OpenVLA与PD-VLA等对比模型[32] - 在未见物体条件下，ReconVLA仍保持40%以上的成功率，展现出强大的视觉泛化能力[32]