ReconVLA
搜索文档
AAAI 2026杰出论文奖 | ReconVLA:具身智能领域首次获得
具身智能之心· 2026-01-27 11:00
文章核心观点 - ReconVLA模型获得AAAI最佳论文奖,标志着让智能体在真实世界中“看、想、做”的能力已成为人工智能研究的核心问题之一,这是对具身智能作为通用智能核心范式的社区级认可 [3][5] - 研究核心是抛开参数堆砌,回归操作任务本质,通过重建式隐式视觉定位新范式,解决VLA模型视觉注意力难以稳定聚焦于任务相关目标的关键瓶颈,使机器人做到“看得准、动得稳” [5][11][32][33] 行业意义与认可 - 这是具身智能(Embodied Intelligence / Vision-Language-Action)方向历史上首次获得AI顶级会议最佳论文的研究工作 [5] - 该奖项释放了清晰而重要的信号,表明具身智能的研究价值得到了顶级学术社区的肯定,可能推动该领域从经验驱动的系统设计迈向更扎实、可扩展的通用智能研究范式 [3][34] 技术瓶颈与现有方案局限 - VLA模型的一个基础但被长期忽视的关键瓶颈是:视觉注意力难以稳定、精准地聚焦于任务相关目标,容易被无关物体或背景干扰 [9] - 已有工作主要通过显式裁剪或检测目标区域、预测目标边界框作为中间输出等方式尝试缓解,但未从根本上改变模型自身的视觉表征与注意力分配机制,提升效果有限 [10][15] ReconVLA模型核心创新 - 提出重建式(Reconstructive)Vision-Language-Action模型,其核心思想是不要求模型显式输出“看哪里”,而是通过“能否重建目标区域”来约束模型必须学会精准关注关键物体 [11][12] - 模型在生成动作表征的同时,需完成一项辅助任务:重建当前时刻所“凝视”的目标区域(Gaze Region),这一过程由轻量级扩散变换器在潜在空间中进行高保真复原 [13] - 该机制通过最小化重建误差,迫使模型在其内部视觉表示中编码关于目标物体的精细语义与结构信息,从而在注意力层面实现隐式而稳定的对齐,更接近人类的视觉凝视行为 [13][14] 模型框架与方法 - 整体框架由两个协同分支组成:1) 动作预测分支:以多视角图像、自然语言指令与机器人本体状态为输入,生成动作token驱动机器人;2) 视觉重建分支:利用冻结的视觉tokenizer将Gaze region编码为潜在token,主干网络输出重建token引导扩散去噪过程复原目标区域视觉表示 [17] - 重建损失在像素与潜在空间层面为模型提供了隐式监督,使视觉表征与动作决策在训练过程中紧密耦合 [18] - 构建了大规模机器人预训练数据集(超过10万条交互轨迹,约200万张图像),通过自动化标注生成Gaze region用于重建监督,该预训练显著提升了模型在视觉重建、隐式Grounding及跨场景泛化的能力 [21][25][31] 实验结果与性能 - 在CALVIN仿真基准上,ReconVLA在长时序任务中显著优于现有方法 [22] - 在ABC→D泛化任务中,平均完成长度达到3.95,全面领先同期所有对比方法;在ABCD→D长程任务中,平均完成长度为4.23,完整任务成功率达70.5% [23][26] - 在极具挑战的长程任务“stack block”上,方法成功率达到79.5%,远高于Baseline的59.3% [23] - 在真实机器人实验中,基于六自由度机械臂测试叠碗、放水果等任务,ReconVLA在所有任务上均显著优于OpenVLA与PD-VLA,并在未见物体条件下仍保持40%以上的成功率 [27] 消融实验与机制分析 - 对比Explicit Grounding (EG)和COT Grounding (CG),ReconVLA采用的隐式Grounding (IG)在CALVIN上获得了远高于前两者的成功率,表明仅用精细化的目标区域作为隐式监督可以实现更精确的注意力、更高的任务成功率以及更简单的模型架构 [28] - 消融实验表明:1) 全图重建仍优于仅有动作监督的基线,但视觉冗余使其在未知环境下效果受限;2) 重建目标区域(Gaze region)具有显著效果,使模型专注于目标物体,避免被无关背景干扰;3) 大规模预训练显著提升了模型在视觉重建、隐式Grounding及跨场景泛化的能力 [29][30][31]
AAAI 2026杰出论文奖 | ReconVLA:具身智能研究首次获得AI顶级会议最佳论文奖
机器之心· 2026-01-26 11:08
在长期以来的 AI 研究版图中,具身智能虽然在机器人操作、自动化系统与现实应用中至关重要,却常被视 为「系统工程驱动」的研究方向,鲜少被认为能够在 AI 核心建模范式上产生决定性影响。 近年来,Vision-Language-Action(VLA)模型在多任务学习与长时序操作中取得了显著进展。然而,我们 在大量实验中发现,一个基础但被长期忽视的问题严重制约了其性能上限: 视觉注意力难以稳定、精准地 聚焦于任务相关目标。 以指令「将蓝色积木放到粉色积木上」为例,模型需要在复杂背景中持续锁定「蓝色积木」和「粉色积 木」。但现实中,许多 VLA 模型的视觉注意力呈现为近似均匀分布,不同于人类行为专注于目标物体, VLA 模型容易被 无关物体或背景干扰 ,从而导致抓取或放置失败。 而 ReconVLA 获得 AAAI Outstanding Paper Awards,释放了一个清晰而重要的信号: 让智能体在真实世界 中「看、想、做」的能力,已经成为人工智能研究的核心问题之一 。 这是具身智能(Embodied Intelligence / Vision-Language-Action)方向历史上, 首次获得 AI 顶 ...
AAAI杰出论文来了!港科大、同济、浙师大等国内高校获奖
机器之心· 2026-01-22 16:13
会议概况与投稿情况 - AAAI 2026会议于1月20日至27日在新加坡举行,总投稿数为23,680篇,录用论文4,167篇,接收率为17.6% [2] - 会议公布了5篇“杰出论文”奖项,其中3篇由华人团队主导,涉及香港科技大学(广州)、西湖大学、浙江大学、同济大学、浙江师范大学、香港城市大学等多所国内高校 [1] 获奖论文核心内容 论文1:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver - 针对现有VLA模型视觉注意力分散、难以聚焦目标区域的问题,提出了一种采用隐式对齐范式的重建式VLA模型 [5][6] - 方法以模型视觉输出为条件,引入扩散Transformer来重建图像中对应于被操作物体的注视区域,促使模型学习更细粒度的表征并准确分配视觉注意力 [9] - 构建了大规模预训练数据集,包含来自开源机器人数据集的十万余条轨迹和两百万条数据样本,提升了模型在视觉重建任务上的泛化能力 [9] - 大量仿真与真实环境实验表明,该方法在精细操作能力和泛化表现上均有出色表现 [9] - 作者来自香港科技大学(广州)、西湖大学、浙江大学、莫纳什大学 [7] 论文2:LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation - 研究如何利用LLM更强的语言理解能力与广泛的世界知识来增强CLIP模型,尤其是在处理冗长且结构复杂的描述文本时的表现 [12] - 提出一种高效的微调框架,将LLM嵌入到预训练的CLIP中,训练成本几乎与常规的CLIP微调相当 [12] - 方法首先将LLM转化为适配CLIP场景的“嵌入化”形式,随后通过一个轻量级适配器将其与预训练的CLIP视觉编码器耦合,该适配器仅需在数百万规模的图像-文本对上进行训练 [12] - 相较于EVA02、SigLIP-2等当前最先进的CLIP变体,该方法在无需大规模重新训练的前提下取得了显著的性能提升 [16] - 增强后的CLIP在多种下游任务上均表现出稳定改进,包括线性探测分类、支持短文本与长文本的零样本图像-文本检索、零样本与有监督的图像分割、目标检测等 [16] - 作者来自同济大学、微软、麦考瑞大学 [13] 论文3:Model Change for Description Logic Concepts - 该论文已获奖,但目前尚未公开发布 [17] - 作者来自奥斯陆大学、卡迪夫大学 [18] 论文4:Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis - 针对现实世界连续时间演化系统的因果关系学习,现有方法存在对时间离散化处理(面对不规则采样数据性能差)或忽略系统背后因果结构的问题 [20] - 提出CADYT方法,一种用于动力系统因果发现的新方法,可同时解决上述两大挑战 [20] - 该方法基于差分的因果模型进行建模,对连续时间系统的刻画只需更弱的假设,更符合真实系统的连续演化特性 [20] - 采用精确的高斯过程推断来建模连续时间动力学,并通过结合马尔可夫条件与最小描述长度原则,采用贪心搜索策略来识别系统的因果结构 [20] - 实验表明,无论是在规则采样还是不规则采样的数据场景下,CADYT都显著优于现有先进方法,能够恢复出更接近真实底层动力学机制的因果网络结构 [24] - 作者来自博世AI中心团队、德国达姆施塔特工业大学、德国医学AI研究所IKIM等 [21] 论文5:High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks - 该获奖论文目前尚未放出论文链接 [25] - 作者来自浙江师范大学、香港城市大学、南洋理工大学、剑桥大学 [27]
AAAI 2026结果公布,刷出88887高分!2.3万投稿录用率仅17.6%
具身智能之心· 2025-11-11 08:02
AAAI 2026会议投稿与录用概况 - 会议总投稿量创历史新高,达到23,680篇,较AAAI 2025的12,957篇有大幅增长[3][41] - 录用论文数量为4,167篇,录用率为17.6%,低于AAAI 2025的23.4%录用率[4][45] - 投稿量激增导致竞争异常激烈,录用率为近三年来最低[43][45] 具身智能与多模态模型技术进展 - ReconVLA模型获得88887高分评级,通过引入“视觉token”引导重建“凝视区域”的辅助任务,隐式增强视觉-语言-动作模型的落地能力[24][25] - VLA-Adapter作为轻量级基座模型,参数量仅0.5B,训练显存需求为24.7GB,是基线模型的0.4倍,吞吐量达到219.2Hz,是基线模型的3倍,并在主流基准上达到SOTA性能[26][32] - EmoAgent作为首个多模态推理模型情感对抗框架,揭示“安全-推理悖论”,通过夸张情感提示劫持推理路径以暴露安全错位[22] - PhysPatch是针对自动驾驶的可物理实现对抗贴片框架,通过联合优化贴片参数与语义位置,在多种MLLM上具有高迁移性[22] 模型效率与优化技术 - DegVoC模型借鉴压缩感知思想,将vocoder建模成反退化问题,以3.89M参数量和45.62GMACs/5s的显著更低开销达到SOTA性能[28][29] - SepPrune框架为深度语音分离模型引入“可微分掩码策略”,通过梯度学习自动剔除冗余通道,剪枝后模型收敛速度比从零训练快36倍,仅需1个epoch微调即可恢复预训练模型85%的性能[30][31] - MPAS方法基于图消息传递,打破顺序通信限制,将多智能体系统通信时长从84.6秒降至14.2秒,并增强抗后门鲁棒性[18] 人工智能安全与对齐 - SECURE方法提出微调安全约束,通过惩罚正交更新将模型保持在“狭窄安全盆地”内,减少7.6%有害行为并提升3.4%性能[19] - GeoShield是首个面向VLM地理隐私防护的对抗框架,通过特征解耦、暴露识别和尺度自适应增强,有效阻止模型推测地理位置[20] - CogniTrust框架受人类记忆方式启发,将可验证监督与三元记忆模型相结合,从空间和语义角度验证、校准和综合监督信号[12][13] 基础模型应用与迁移 - FGNet框架将Segment Anything 2在海量自然图像中学到的先验知识高效迁移至EM神经元分割领域,在SAM2权重冻结时性能已媲美SOTA,微调后显著超越所有方案[34][35]
AAAI 2026结果公布,刷出88887高分,2.3万投稿录用率仅17.6%
36氪· 2025-11-10 17:55
AAAI 2026会议概况 - AAAI 2026为第40届年会,将于2026年1月20日至1月27日在新加坡博览中心举办[3] - 会议总投稿量暴增至23,680篇,创下历史新高,较AAAI 2025的12,957篇有效投稿大幅增长[1] - 最终录用论文4,167篇,录用率为17.6%,竞争激烈程度远超往年,作为对比,AAAI 2025录用3,032篇论文,录用率为23.4%[1] - 根据历史数据,AAAI 2026的录用率为近三年来最低[36][37] 代表性录用研究成果 - 北京大学张铭教授课题组博士生顾怿洋的一作论文《CogniTrust:基于认知记忆的可验证监督的鲁棒散列方法》被录用,该研究针对数据标签噪声问题,受人类记忆方式启发,提出将可验证监督与三元记忆模型相结合的新框架[5][7] - 南洋理工大学团队有5篇论文被录用(3篇Poster,2篇Oral),研究方向涵盖大模型隐私保护、安全对齐、多模态安全等[10][11] - 其Oral论文MPAS基于图消息传递的并行多智能体系统,将通信时长从84.6秒降至14.2秒,并增强抗后门鲁棒性[12] - 另一篇Oral论文SECURE提出微调安全约束方法,减少7.6%有害行为并提升3.4%性能[13] - 香港科技大学(广州)博士生宋文轩有2篇关于视觉-语言-动作大模型的Oral论文被录用,其中ReconVLA论文获得高评分(平均评分7.80,平均置信度4.2)[18][19] - 清华大学李凯团队有1篇Oral和2篇Poster被录用,Oral论文DegVoC借鉴压缩感知思想,以3.89M参数量和45.62 GMACs/5s的显著更低开销达到SOTA性能[21][22] - 其Poster论文VLA-Adapter作为轻量级VLA基座,在GitHub获得1.6k星,仅需0.5B参数即在主流基准上达到SOTA性能[23] 审稿过程与社区反响 - 有审稿人表示今年竞争异常激烈,录取非常严格,在其评审的论文中仅一篇极具创新性的获得SPC接收[40] - 存在审稿过程争议,有案例显示审稿人给出3分差评的论文,因缺乏技术细节和论证依据,但另一位审稿人却给出高分并试图为其辩护,被质疑存在“关系户”现象[46][48] - 有作者反映,在rebuttal阶段后,其他评审反而调低分数,形同联合拒稿[42] - 根据社区讨论,总体得分在5分以上的论文均有被录用可能,但最终录用与否由主席决定,并非完全取决于评分[43][51]
ReconVLA:基于重建式VLA模型的机器人感知方法
具身智能之心· 2025-08-30 00:03
视觉-语言-动作模型技术突破 - 提出重建式视觉-语言-动作模型ReconVLA 通过目标区域重建任务实现隐式视觉定位 显著提升机器人操控精度[3][8][14] - 核心创新在于引入扩散变换器进行高保真区域重建 迫使模型将注意力像聚光灯般聚焦关键物体[3][11][16] - 在CALVIN长时序任务中首任务成功率接近95% 平均完成子任务数达3.95个[9][20][21] 技术实现架构 - 采用双分支协同架构:视觉重建分支负责目标区域编码与重建 动作预测分支生成离散动作token驱动机械臂[13] - 利用冻结视觉tokenizer将凝视区域编码为潜在token 保留细粒度视觉信息[3][13] - 通过联合优化重建损失与动作预测损失 增强视觉表示可迁移性与鲁棒性[13][19] 数据集与预训练 - 构建包含10万条轨迹、200万样本的大规模预训练数据集 聚合BridgeData V2、LIBERO、CALVIN等多个开源数据集[8][19] - 采用自动化标注流程 利用微调Grounding DINO自动分割指令对应的凝视区域图像[8][19] - 消融实验表明大规模预训练使模型在CALVIN任务成功率从88.8%提升至95.6%[19][20] 性能表现对比 - 在ABCD→D长时程任务中以70.5%成功率完成全部5个子任务 平均完成4.23个子任务 显著优于主流方案[21][22] - 对比显式定位与思维链定位范式 隐式定位在保持端到端训练优势的同时避免坐标回归困难[10][11] - 真实机器人测试中 对未见物体任务保持40%以上成功率 远超OpenVLA和PD-VLA的近乎零成功率[25][26] 实际应用验证 - 在六自由度机械臂平台上执行叠放碗具、水果放置、翻转杯子、清理餐桌等任务 成功率高达90%[25] - 视觉系统采用双深度相机配置:底座视角RealSense D515和末端执行器视角ORBBEC Dabai[25] - 注意力热图显示模型能动态调整凝视区域 在干扰物多的场景中精准锁定目标物体[4][9]