视觉 - 语言 - 动作(VLA)模型
搜索文档
在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错
机器之心· 2026-03-17 19:31
文章核心观点 - 香港大学OpenDriveLab团队提出的RISE框架,通过构建组合式、多视角世界模型,使机器人在虚拟想象空间中进行强化学习,有效解决了VLA模型在长程复杂任务中面临的两大根本挑战:模仿学习的误差累积和真机强化学习的高成本[2] - RISE框架在三大极具挑战性的真机长程任务中,性能相比SOTA基线实现跨越式提升,部分任务成功率涨幅超45%,展现了从物理试错到思维进化的具身智能范式跃迁潜力[2][23][35] 传统VLA模型的落地难题 - VLA模型落地面临三重枷锁:模仿学习的暴露偏差、真机强化学习的现实难题、以及现有世界模型的能力短板[7][8] - 模仿学习依赖专家演示数据,模型在真实执行中一旦偏离轨迹便无法自我修正,导致长程任务中误差逐步放大[9][10][13] - 真机强化学习存在样本效率低、安全风险高、重置成本高三重现实约束,需要海量交互数据(动辄数百万次尝试)且易造成硬件损坏[11][13] - 现有生成式世界模型难以同时兼顾动作可控性和长程一致性,导致无法精准跟随动作指令、长序列视频预测失真或违背物理规律,无法作为强化学习的有效训练环境[11][13] RISE框架的核心创新与架构 - RISE的核心创新在于将物理交互完全迁移到由组合式世界模型构建的想象空间中,通过虚实解耦的设计,解决了高保真模拟问题并构建了高效的策略自进化闭环[16][17] - 组合式世界模型采用解耦设计,分为可控动力学模型和进度价值模型两个独立优化模块[18] - 可控动力学模型(模拟器)采用Task-Centric Batching策略,专注于动作指令的跟随,实现虚拟动作与真实操作的高度对齐[18] - 进度价值模型(裁判员)融合进度估计和时序差分学习,为长程任务提供密集奖励信号,并增强对细微失败的敏感性[18] - RISE构建了完全在想象空间运行的在线强化学习闭环,包含Rollout、评估、训练三个阶段,无需任何真机交互即可实现策略高效迭代[19][20] - 该架构通过解耦和对齐,让虚拟想象空间无限贴近真实物理世界,其核心逻辑是“模型解耦建沙盒,轨迹迭代优策略”[21][22] RISE的性能验证结果 - 在动态积木分拣、背包装袋、纸盒闭合三大真机长程任务中,RISE相比SOTA基线实现成功率跨越式提升[24][25] - 动态积木分拣:成功率从RECAP的50%提升至85%,涨幅35个百分点[26][29] - 背包装袋:成功率从30%提升至85%,涨幅45个百分点[26][29] - 纸盒闭合:成功率高达95%[26][29] - 消融实验证明RISE各模块设计均为性能关键,任何组件缺失都会导致性能显著下降[27] - 去除Task-Centric Batching,任务完成率直接下跌[27][30] - 去除TD Learning,价值模型无法敏锐捕捉细微失败状态[27][30] - 脱离在线动作与在线状态,模型泛化能力大幅降低[27][30] - RISE训练出的策略具备从失败中恢复的真实智能,展现出抗干扰和位置泛化能力[28][31] - 在模型生成质量评估中,RISE的动力学模型在FVD和EPE等定量指标上均实现最优,视频生成精度和动作跟随能力更优,且能生成清晰、符合物理规律的多视角未来帧[32][34] 行业启示与未来展望 - RISE框架的价值在于对学习本质的重估,它将昂贵、高风险的物理交互成本转化为可扩展的计算成本,使机器人在思维沙盒中完成自我博弈与迭代[35] - 该框架标志着从隐向量世界模型到组合式多视角、像素级世界模型的底层范式跃迁,想象训练正在成为具身智能发展的核心方向[35] - 未来,当世界模型精度逼近物理现实,机器人有望在虚拟想象空间中预演和打磨技能,实现“满级出厂”,从而大幅降低物理世界对智能体成长的代价[35][36][37]
ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习
机器之心· 2026-03-02 11:06
WMPO新范式概述 - 香港科技大学与字节跳动Seed团队提出WMPO新范式,让具身智能在“想象中训练”,无需在真实机器人上进行大规模强化学习交互,即可提升策略性能并涌现自我纠错行为 [2] - 该方法论文已被ICLR 2026接收,相关论文、代码与模型均已开源 [2] 传统VLA模型的训练瓶颈 - 传统VLA模型训练受限于两大瓶颈:模仿学习的先天局限与强化学习的高昂代价 [3] - 模仿学习依赖专家演示数据,模型未学习“犯错后如何应对”,在推理时易因状态偏离训练分布而错误累积,导致任务失败,在长序列操作中尤为明显 [4] - 在真实机器人上进行强化学习需要数百万次尝试,存在采样效率低、硬件磨损、安全风险及高实验成本等问题 [5] - 已有研究尝试用潜空间世界模型缓解现实交互压力,但其表征与预训练VLA的真实图像表征存在差异,难以直接用于现有VLA策略优化 [5] WMPO的核心突破与设计 - WMPO核心突破在于像素级“想象”与Online GRPO,将策略优化过程完整迁移到视觉世界模型中完成 [7] - 核心设计包含三个关键:像素级视觉世界模型、在想象空间中进行Online GRPO、攻克长时生成难题 [8] - 构建像素级视觉世界模型,直接在图像空间根据当前观察和动作预测下一帧,生成完整“想象轨迹” [8] - 引入策略行为对齐机制,在专家数据预训练基础上,对策略生成的非专家轨迹进行对齐训练,使世界模型能准确模拟OOD动作及失败后果 [8] - 在高保真视觉世界模型中引入强化学习过程,对于同一初始状态,VLA模型在世界模型中生成一组不同候选轨迹,通过奖励函数判断轨迹成功与否并进行组内相对比较以估计优势 [9] - 采用Online GRPO方式,不依赖额外价值网络,降低了内存与训练复杂度,并在长序列生成中表现更稳定 [9] - “组内竞争”机制使模型能自动偏好那些即使犯错也能恢复并完成任务的动作路径 [9] - 为攻克长时生成难题,引入噪声帧增强和帧级动作控制机制,确保生成数百帧“想象轨迹”时仍保持画面清晰、动作对齐 [10] WMPO的架构与算法 - WMPO架构通过三步跨越现实:构建高保真“沙盒”、策略评价与改进、自监督式参数优化 [11] - 通过像素级生成直接模拟物理反馈,构建视觉世界模型 [12] - 进行策略行为对齐,确保世界模型能准确模拟策略生成的OOD动作及其后果 [14] - 在想象空间内进行Online GRPO,针对同一初始状态生成一组不同轨迹进行评价 [15] - 通过训练奖励函数判断每条轨迹是否成功,并计算组内各轨迹奖励的相对好坏来估计优势 [16] - 优势估计公式为组内竞争机制,让模型能自动识别并强化能从错误中恢复的动作路径 [18][19] - 在想象出的轨迹上最小化目标函数,将VLA模型从模仿者转化为自我进化的决策者 [20] WMPO的实验结果与性能 - 在MimicGen模拟环境和真实ALOHA机器人上对WMPO进行了系统评估 [21][22] - 采样效率显著提升:仅使用128条真实轨迹作为数据预算时,WMPO成功率已超过最优Offline RL基线9.8%;当预算提升至1280条时,领先优势扩大至15.2% [23] - 涌现自我纠错行为:在“方块套圈”等任务中,当基座模型因碰撞或姿态偏移卡死时,WMPO训练的策略会主动调整动作,此类行为未出现在专家演示数据中,是通过“想象中的失败与比较”自然涌现 [24] - 执行效率更高:WMPO训练的策略动作更连贯、果断,成功轨迹长度明显缩短,减少了犹豫和重复尝试 [26] 行业启示与展望 - WMPO的成功证明高质量的“想象”足以替代昂贵的“实践”,通过将VLA的强化学习过程解耦到生成式世界模型中,解决了采样效率难题,并让机器人学会在挫折中自我完善 [28] - WMPO用纯粹的视觉模拟,为具身智能走向通用化指明了一条充满想象力的道路 [29]
当世界模型、VLA和强化学习三者结合起来,能取得什么惊艳效果?
具身智能之心· 2026-01-15 08:32
行业技术背景与挑战 - 视觉-语言-动作模型在通用机器人操作任务中展现出强劲潜力 但其对专家演示数据的依赖使其难以从失败中学习并实现自我修正 [2] - 强化学习通过与物理环境的自主交互可实现模型自我提升 能弥补VLA模型的缺陷 但直接应用于真实机器人时面临样本复杂度极高的问题 [2] WMPO方法的核心创新 - WMPO是一种基于世界模型的策略优化方法 构建了一套无需与真实环境交互的在线策略VLA强化学习框架 [3] - 与主流的潜态世界模型不同 WMPO聚焦于基于像素的预测任务 使“想象”轨迹与经大规模网络图像预训练的VLA特征保持对齐 [3] - 该方法支持策略执行在线策略GRPO优化 相比常用的离线策略方法性能更优 [3] WMPO方法的实验优势 - 在仿真环境与真实机器人场景的大量实验表明 WMPO能显著提升样本效率 [3] - 该方法能实现更优的整体性能 [3] - 该方法能涌现出自我修正等创新行为 [3] - 该方法具备稳健的泛化能力与终身学习能力 [3]
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化
机器之心· 2026-01-06 17:38
文章核心观点 - 通用机器人需要颠覆“出厂即巅峰”的传统电子产品设定,成为能在真实部署中持续学习和进化的生命体[2][3] - 智元具身研究中心提出的SOP框架是一种颠覆性的机器人学习新范式,通过构建“多机平行现实”与“云端集中进化”的闭环,实现了机器人在真实世界中的分布式持续学习[4][6][13] - SOP框架通过在线、集群、并行的集团军作战模式,解决了传统机器人后训练离线、单机、顺序的瓶颈,让智能进化不再止步于出厂时刻[9][10][13] 行业痛点与范式转变 - 当前具身智能面临尴尬真相:基于互联网数据预训练的模型是“理论巨人”,一旦进入充满未知的物理世界,常因环境变化(分布偏移)而束手无策[2] - 传统机器人后训练是一条离线、单机、顺序的漫漫长路,导致机器人探索慢、迭代慢,且容易在学习新任务时遗忘旧能力[9] - 通用机器人的出路不应是“静态标品”,而应是能在真实部署中、在每一次失败和纠正中持续变强的生命体[3] - SOP框架改变了整个通用机器人系统的生命周期,部署不再是技术迭代的终点,而是更大规模学习的起点[43][44] SOP框架技术原理 - SOP即可扩展在线后训练,是业界首次在物理世界的后训练中深度整合在线、分布式和多任务机制[6] - 框架将VLA模型的后训练从“单机单打独斗”转变为“在线、集群、并行”的集团军作战,构建“多机平行现实→云端集中学习→模型即时回流”的超级闭环[13] - 多台机器人组成集群共享同一VLA策略,在同一时间开启多个“平行现实”,大幅拓宽真实世界中状态-动作分布的覆盖面,避开单机学习的局部瓶颈[14][17] - 系统采用Actor-Learner分离架构,通过消息队列解耦数据生产与消费,具备“零配置”的弹性水平扩展能力,新机器人可即插即用[20] - 内置动态采样器,能根据任务实时训练损失自动加大对当前薄弱环节的在线数据训练权重,实现群体智能的实时同步[23] - 通过多任务并行学习,巧妙化解了传统单机在线训练面临的灾难性遗忘矛盾,确保了VLA的通用性不会因针对某一任务的性能提升而受损[24] 实验验证与性能表现 - 实验基于智元精灵G1机器人平台进行,该机器人拥有双臂14个自由度,配备“三目”RGB视觉系统,具备执行精细微操的硬件基础[26] - 在极具挑战性的任务中(如杂货补货涉及500多种商品、叠柔软衣物、协同开冰柜门),SOP结合在线多机方案全面碾压了传统单机或离线方法[29][31] - 在叠衣服和组装纸盒的长程评估中,SOP系统实现了超过36小时的连续运行且无性能衰减[34] - 在叠衣服任务中,SOP将系统吞吐量直接翻倍,从每小时21件提升至45件[34] - 扩展性实验显示清晰的Scaling Law:随着分布式集群规模扩大,模型性能呈近乎线性增长[35] - 在3小时总训练时长限制下,四机并行学习的最终成功率达到92.5%,比单机提升12个百分点[36][37] - 要达到80%性能基准线,单机需174分钟,四机仅需72分钟,训练速度达到原来的2.4倍[36][37] - 训练成本优势显著:当预训练数据从80小时增至160小时,仅带来4%的性能提升;而SOP仅用3小时在轨经验,就换来了约30%的性能提升[41] - 最终性能上限仍被预训练模型的初始规模所锚定,在线学习是既有知识的超级优化器,而非大规模预训练的完全替代品[41] 产业影响与未来展望 - SOP范式转变意味着机器人可以带着尚不完美的初始模型上线,极大地降低了产业落地门槛[44] - 部署就是通往完美之路,机器人的每一次任务执行、每一次失败后的纠正都能转化为宝贵的训练数据[44] - 随着更多机器人走入真实世界,分布式集群规模将呈指数级增长,将见证前所未有的群体智能增长速度[45] - SOP让众多机器人的经验共同驱动智能快速成长,是通用机器人走向大规模真实世界部署的关键一步[47]
英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......
自动驾驶之心· 2026-01-05 11:33
文章核心观点 - 英伟达、UCLA和斯坦福的研究团队提出了一种名为反事实视觉-语言-动作模型的新型端到端自动驾驶框架,该框架通过引入自反思和反事实推理能力,使模型能够在执行动作前质疑并修正其规划,从而显著提升轨迹准确性、安全性和计算效率 [2][3][10] 技术背景与现有问题 - 现有增强推理能力的视觉-语言-动作模型主要通过生成中间语言轨迹来提升可解释性,但其推理是描述性的,仅描述观测内容和预期动作,缺乏在执行前验证自身规划安全性的自反思循环 [6] - 现有具身视觉-语言模型的自修正能力通常在动作失败后触发,或依赖外部世界模型进行评估,无法让模型在执行前主动推理自身动作的潜在后果 [7] - 实现VLA模型内部的自反思反事实推理面临两大挑战:缺乏动作到语言的映射机制,以及标准训练流程缺乏教导模型回答反事实问题的数据 [7] CF-VLA模型核心机制 - 模型采用“元动作→反事实推理→更新后元动作→轨迹”的自反思循环,首先生成时间分段的元动作概括驾驶意图,然后结合视觉环境进行反事实推理,模拟潜在结果并修正不安全规划,最后生成最终轨迹 [10][19] - 模型引入“时间分段元动作”作为中间表示,从纵向、横向和车道级三个正交维度描述驾驶行为,覆盖6.4秒规划时域,实现了动作与语言的对齐,便于语言骨干网络进行推理 [23][24] - 模型具备自适应推理能力,通过统一指令让模型隐式学习何时需要启动反事实推理,仅在复杂、高风险场景中进行深入思考,在简单场景中节省计算资源 [21][48] 数据流水线与训练方法 - 研究设计了“rollout-筛选-标注”数据流水线,用于自动构建高质量的反事实训练数据:首先对基础VLA模型进行rollout生成候选轨迹;然后通过比较自由生成与预填充真实元动作下的轨迹质量差异,自动筛选出元动作成为性能瓶颈的高价值场景;最后使用高性能教师模型为筛选出的场景生成反事实推理轨迹 [11][12][26] - 训练采用混合数据集分阶段进行:首先在纯轨迹数据集上训练基础模型;然后在元动作标注数据集上微调;最后在混合了纯轨迹、元动作和反事实推理数据的数据集上微调,得到完整的CF-VLA模型 [33] - 该流水线支持多轮训练,训练后的CF-VLA模型可重新接入流水线生成新一轮反事实数据,实现性能的持续自改进 [34] 实验设置与评估指标 - 实验在大规模内部数据集上进行,该数据集包含来自25个国家的80,000小时人类驾驶数据 [37] - 使用的训练数据量包括:纯轨迹数据集约1160万个20秒视频片段;元动作训练集包含43.3万个20秒片段和80.1万个8.4秒样本;反事实推理数据集通常包含20万个样本 [8][39] - 评估从三个维度进行:轨迹准确率、安全特性以及推理质量与计算开销 [39] 主要实验结果 - 在轨迹准确率上,CF-VLA相比纯轨迹模型提升高达17.6%,相比非反思的元动作基线模型提升9% [14][47] - 在安全指标上,CF-VLA将碰撞率降低20.5%,偏离道路率降低14.7% [3][14] - 模型展现出清晰性能阶梯:纯轨迹模型 < 元动作轨迹模型 < 语言-元动作轨迹模型 < CF-VLA [47] - 多轮训练能进一步提升性能并优化计算效率,例如第二轮训练后,有路线信息的CF-VLA模型推理率降低近一半,平均输出长度缩短,同时保持了性能提升 [45][47] 消融实验关键发现 - 元动作的引入至关重要,预填充真实元动作可使轨迹误差几乎减半,表明剩余误差主要来自元动作预测不准,这为直接对元动作进行反事实推理提供了依据 [50] - 自适应推理机制有效:强制全程推理的模型MinADE升高22%,修正后IOU下降;强制不推理的模型在复杂场景表现不佳;而自适应推理模型取得了最佳权衡 [51] - 数据筛选流水线是关键:仅为高价值场景生成反事实数据的模型,其性能优于为全数据集生成反事实数据的模型,后者输出长度更长、推理率更高但核心指标未提升甚至略有下降,表明反事实监督需有针对性 [52] 定性结果与案例 - 可视化案例表明,CF-VLA能识别初始规划与场景的不匹配并进行针对性修正,例如在并道场景提前变道避让拥堵、在转向场景生成更果断的动作、在行人场景减速等待,从而提升安全性、交通效率和语义一致性 [54][57] 行业意义与趋势 - 反事实推理和自反思能力是当前自动驾驶VLA模型研究的热点,也是行业未来进化的趋势 [2] - 该工作将推理从一次性描述升级为因果自修正信号,为实现“三思而后行”的自反思自动驾驶智能体迈出了重要一步 [3][56]
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控
具身智能之心· 2025-12-26 08:55
研究背景与核心问题 - 现有视觉-语言-动作模型依赖2D视觉输入制定策略,但在真实3D物理环境中执行任务时,感知与行动存在割裂,导致机器人空间定位精度低、任务通用性差,难以适应复杂现实场景[3] - 核心难题在于如何让机器人像人类一样,从2D视觉信息中精准推断3D空间关系,解决“2D感知与3D动作脱节”的问题[3] 解决方案与核心洞察 - 研究团队提出一种全新的空间感知VLA预训练范式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力[4] - 核心洞察是不纠结于人类与机器人的“身体差异”,而是提取人类动作中不变的3D空间逻辑,这些空间先验知识可以跨载体迁移到机器人身上[7] 关键数据集:Hand3D - 构建了Hand3D数据集,分为Hand3D-visual和Hand3D-action两部分,作为机器人的“3D空间教科书”[8] - Hand3D-visual包含约30万条指令-答案对,通过点云估计、物体定位和手部姿态标注,将2D视觉观测与3D物理空间关联[9][10] - Hand3D-action包含103万条视频-指令-运动三元组,从人类视频中提取手腕的3D轨迹并离散化为“运动令牌”,提供细粒度的3D动作监督[14] - 该数据集无需依赖昂贵3D扫描设备,大幅降低了3D空间监督数据的获取成本[14] 模型架构:VIPA-VLA - 设计了VIPA-VLA双编码器架构,核心是将语义视觉特征与3D空间特征深度融合[15] - 语义视觉编码器基于预训练的视觉-语言模型,负责提取图像高层语义特征;3D视觉编码器采用Cut3R模型,从单张2D图像中估计密集点云,输出几何信息[23] - 通过基于交叉注意力的融合层结合两种特征,并利用残差连接得到最终融合特征,既能保留语义理解能力,又能注入3D空间信息[17] - 在动作建模方面,将3D动作轨迹转化为运动令牌序列,并引入扩散Transformer作为动作头,生成可执行的动作块[18] 训练流程 - 训练分为三个阶段:3D视觉预训练、3D动作预训练、后训练适配机器人任务[21] - 阶段1冻结所有预训练参数,仅训练融合层,利用Hand3D-visual的VQA数据,让模型学习从2D语义和3D空间特征中推理3D关系[22] - 阶段2冻结语义和3D编码器,扩展LLM词汇表以包含运动令牌,并用Hand3D-action数据训练LLM,预测3D运动令牌序列[23] - 阶段3添加DiT动作头,冻结视觉和3D编码器,仅训练LLM骨干和动作头,使用机器人任务数据适配具体任务[24] 实验结果 - 在LIBERO基准的单视图输入设置下,VIPA-VLA的平均成功率达到92.4%,超过GR00T N1.5和4D-VLA等基线;在双视图设置下,平均成功率高达96.8%[28] - 在LIBERO的长序列任务中,VIPA-VLA的成功率达到85.6%,显著高于专门优化空间推理的SpatialVLA[29] - 在更具挑战性的RoboCasa基准上,仅用每个任务50条人类演示数据训练,VIPA-VLA的平均成功率达到45.8%,超越GR00T N1和π0.5,在“门/抽屉”类别中成功率高达67.7%[30] - 在真实机器人任务中,Wipe-Board任务的整体成功率达到60%,子任务成功率83%,远超GR00T N1.5和InternVL3.5;Water-Plant任务的整体成功率50%,子任务成功率57%,同样大幅领先基线[31] - 在unseen环境中,VIPA-VLA的Wipe-Board任务整体成功率仍有50%,而其他模型的成功率普遍降至10%左右,证明其学到的3D空间逻辑具有极强的迁移能力[31] - 在空间理解专项测试中,VIPA-VLA的距离预测误差仅为0.12米,方向预测准确率达到1.82/3,显著优于未经过空间预训练的InternVL3.5[35] 消融实验与关键贡献 - 移除“空间感知预训练”导致模型平均成功率下降1.2%[43] - 移除“双编码器架构”导致平均成功率下降3.7%[43] - 仅移除“融合层”导致平均成功率下降2.0%[43] - 结果表明,空间感知预训练和双编码器架构是VIPA-VLA性能提升的核心,两者相辅相成共同解决了2D-3D对齐问题[39] 研究意义与未来方向 - 该研究为机器人学习提供了一种新范式:不依赖昂贵的机器人数据,而是利用海量、易获取的人类演示视频,让模型提前掌握3D空间理解能力,再适配具体的机器人任务[40] - 该范式降低了机器人学习的数据源成本,并大幅提升了模型的泛化性[40] - 技术可直接用于家庭服务机器人、工业机械臂、医疗机器人等领域,让机器人在复杂、动态的真实环境中更精准地执行任务[40] - 未来计划将这种预训练范式与机器人数据预训练相结合,并扩展Hand3D数据集的场景覆盖范围[40]
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心· 2025-12-25 09:41
文章核心观点 - 由香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的GeoPredict框架,通过“预测性运动学 + 3D高斯几何”的双核心架构,为视觉-语言-动作模型注入了未来感知的几何先验,突破了传统方法在3D空间推理和长时程物理一致性方面的瓶颈,显著提升了机器人操纵的精度与泛化能力 [2][3][17] 传统VLA模型的局限 - **空间建模缺失**:现有模型局限于2D图像空间进行反应式决策,缺乏对物体姿态、间隙、末端执行器运动的显式3D几何建模,在需要精准定位的任务中可靠性不足 [3] - **长时程预测不足**:反应式策略仅依赖瞬时观测,无法捕捉运动惯性与场景动态演化,难以应对长时程操纵任务中的物理一致性要求 [4] - **推理效率矛盾**:引入复杂3D预测模块的方法往往导致推理时计算开销激增,无法满足实时机器人控制的部署需求 [5] GeoPredict的技术架构 - **第一层:轨迹级运动学预测模块**:通过编码运动历史、预测多步轨迹,为策略提供显式的运动学先验,并引导后续几何建模的资源分配 [6][8] - **第二层:预测性3D高斯几何模块**:基于3D高斯splatting的高效表征能力,构建未来场景几何预测模块,并利用预测的未来关键点轨迹生成二进制细化掩码,对交互区域分配更多高斯基元,实现高分辨率建模 [6][8] - **第三层:块级因果注意力**:将不同类型的token按“感知-预测-控制”层级组织,块内双向交互,块间严格因果注意力,构建合理高效的信息流动链路 [6][8] - **训练-推理解耦设计**:运动学预测与3D高斯几何模块仅在训练时提供监督信号,推理时仅需轻量级查询token,保持与基础VLA模型一致的高效性 [8] 性能验证结果 - **RoboCasa Human-50基准测试**:在24个复杂日常任务的少样本设置中,平均成功率达52.4%,较基础模型提升10.1%,大幅超越BC-Transformer和GWM等基线方法 [10] - **LIBERO基准测试**:在空间推理、物体交互、目标达成、长时任务四大套件中平均成功率达96.5%,超越UniVLA+和4D-VLA等当前SOTA方法,尤其在长时任务中提升6.4% [10] - **真实场景验证**:在空间、几何、鲁棒性三大任务中,成功率分别达到85.0%、95.0%和90.0%,显著高于基线模型的60.0%、50.0%和35.0% [14] - **组件消融分析**:添加轨迹编码器使平均成功率提升2.5%,结合未来轨迹查询后提升至47.2%;基础3D高斯建模提升至49.4%,结合轨迹引导细化后达到52.4% [11][12] - **效率对比**:轨迹引导细化训练效率较全局高分辨率建模提升20%,且性能更优 [12] 局限与未来方向 - **几何表征维度**:当前聚焦深度几何建模,未融合物体材质、物理属性等信息 [18] - **预测步长平衡**:更长的预测步长可能提升长时任务性能,但需解决累积误差问题 [18] - **实时性优化**:轨迹预测与注意力计算仍有精简空间,可结合模型压缩技术提升部署效率 [18] - **多机器人适配**:当前针对单臂机器人设计,未来可扩展至多臂协作场景 [18]
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 08:05
文章核心观点 - 该综述对视觉-语言-动作模型进行了全面剖析,指出VLA模型正推动机器人技术变革,其发展遵循“基础模块→历史里程碑→核心挑战”的逻辑,五大核心挑战是当前研究的关键突破口 [1] 基础模块与架构趋势 - VLA系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势 [3] - 感知模块正从传统视觉骨干网络转向语言对齐Transformer,并新增几何表征以提升操作精度 [10] - 大脑模块向预训练视觉语言模型收敛,利用互联网级知识实现零样本泛化 [10] - 动作模块从离散令牌化转向连续生成建模,追求平滑的多模态分布建模 [10] - 机器人感知编码器以CNN和ViT为主,语言编码器从Transformer演进至LLM和VLM [10] - 机器人大脑主流架构包括Transformer、扩散Transformer、混合架构和VLM [10] - 机器人动作表征分离散、连续、混合三类,解码方式包括自回归、非自回归和混合解码 [10] 发展里程碑 - **2017-2019年**:奠定基础,VLN、EmbodiedQA等基准推动语言与视觉环境对齐 [13] - **2020-2021年**:转向长时推理,ALFRED、CLIPort实现语言引导的机器人操作零样本泛化 [13] - **2022年**:大模型时代开启,RT-1、RT-2构建统一VLA框架,实现端到端视觉-语言-动作学习 [13] - **2023年**:技术突破集中,PaLM-E统一多模态输入空间,Diffusion Policy革新动作建模范式,Open X-Embodiment提供大规模跨机器人数据 [13] - **2024年**:开源与泛化推进,OpenVLA降低研究门槛,Octo实现跨平台多任务控制,3D-VLA转向全3D世界建模 [13] - **2025年**:多元进化,Humanoid-VLA拓展至人形机器人,Cosmos-Reason1标准化物理推理 [13] 核心挑战与解决方案 - **多模态对齐与物理世界建模**:核心问题是弥合语义、感知与物理交互的鸿沟,实现从2D图像到时空表征的升级,解决方案包括通过对比学习实现模态对齐,引入点云、体素等提升空间推理能力 [18] - **复杂指令理解与高效执行**:核心问题是解析复杂/模糊指令,分解长时任务,实现错误自修复与低延迟执行,解决方案包括采用多模态序列建模处理混合指令,通过分层规划拆解任务 [24] - **从泛化到持续适应**:核心问题是实现开放世界泛化,避免持续学习中的遗忘,缩小仿真到现实的差距,解决方案包括利用多任务预训练、互联网视频迁移知识,通过参数隔离缓解遗忘 [25] - **安全、可解释性与可靠交互**:核心问题是保障物理安全,提升决策透明度,建立人机信任,解决方案包括注入安全约束、通过Constitutional AI对齐人类价值观,输出中间推理过程增强可解释性 [26] - **数据构建与基准测试标准**:核心问题是获取大规模异质数据,建立统一的评估体系,解决方案包括通过表征统一、数据增强整合多源数据,开发覆盖复杂任务与泛化能力的基准测试 [27] 数据集与评估基准 - **模拟数据集**:例如ALFRED包含8,055个专家演示和约120个室内场景,LIBERO包含约6,500个演示和130项技能,VLA-3D包含970万对参考数据和11.5千个重建的3D房间 [6] - **真实世界机器人操作数据集**:例如BridgeData V2包含60,096条轨迹,DROID包含约76千条轨迹,Open X-Embodiment包含超过100万条轨迹和527项技能,AgiBot World包含超过100万条轨迹和217项任务 [6] - **以人为中心及第一人称数据集**:例如Ego4D包含约3,700小时视频,HOI4D包含约4,000个序列,HD-EPIC包含约4,881个物体行程 [6] - **评估基准**:包括用于语言条件操作的RLBench、ManiSkill系列,用于长时任务完成的ALFRED、CALVIN、TEACh,用于高级认知能力的LIBERO、RoboCAS,以及用于评估基础模型的EmbodiedBench、EWM Bench、RoboTwin [30] 应用场景与未来方向 - 主要应用场景包括家庭机器人和工业与野外机器人,前者需处理非结构化环境和长时任务,后者需实现高精度操作与安全合规 [29] - 未来趋势包括发展原生多模态架构、形态无关表征,构建自监督探索与在线强化学习的闭环进化体系,推动评估从二元成功率转向综合诊断测试 [30]
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 11:17
文章核心观点 - 文章介绍了一款名为VLA-4D的新型通用机器人模型,该模型通过引入4D感知能力,旨在解决现有视觉-语言-动作模型在需要细粒度表征的时空一致机器人操作任务中面临的挑战,从而实现更精准、流畅且时序一致的动作规划与执行 [2] 模型技术架构 - VLA-4D模型的核心设计包含两大关键模块:4D感知视觉表征和时空动作表征 [2] - 4D感知视觉表征模块首先提取视觉特征,然后将一维时间信息嵌入三维位置信息以生成4D嵌入特征,最后通过交叉注意力机制融合为统一的视觉表征 [2] - 时空动作表征模块为传统的空间动作表征拓展了时序信息维度,支持时空层面的动作规划,并将多模态表征与大语言模型进行对齐以完成动作预测 [2] - 在这一统一框架下,特殊设计的视觉与动作表征协同作用,使机器人操作兼具空间流畅性与时序一致性 [2] 研究背景与数据 - 现有视觉-语言-动作模型在通用机器人任务中展现出潜力,但在需要细粒度表征的时空一致机器人操作任务中仍面临挑战 [2] - 现有方法通常将三维位置信息嵌入视觉表征以提升动作空间精度,但难以实现对动作执行过程的时序一致性控制 [2] - 该研究工作为现有VLA数据集补充了时序动作标注,用于模型的微调训练 [2] 相关技术生态 - 物理世界是动态变化的四维场景,感知和理解其时空知识极具挑战 [6] - 技术生态中,4D-VGGT模型用于实现动态几何感知,LLaVA-4D模型用于增强动态场景推理,而VLA-4D模型则赋能动态时空规划 [6][7] - 相关深度内容在知识星球「具身智能之心」中涵盖,包括灵巧手技术、Agent定义、VLA与强化学习方案的真机部署探讨,以及跨实体世界模型等话题 [9]
理想自动驾驶负责人回应宇树王兴兴对VLA质疑:空谈架构不如看疗效
凤凰网· 2025-12-10 18:27
公司对VLA模型的技术立场与信心 - 理想自动驾驶负责人郎咸朋认为,经过两个多月的实践,VLA(视觉-语言-动作)模型是自动驾驶最好的模型方案 [1] - 公司坚持VLA模型的原因在于其拥有由数百万辆车构建的数据闭环,这使其能在当前算力下将驾驶水平做到接近人类 [1] - 公司CEO李想认为,未来五到十年,具身机器人核心将有两种形态:汽车类具身机器人和人形类具身机器人 [1] 行业技术争议与公司回应 - 宇树科技创始人王兴兴曾对VLA模型表示怀疑,认为其是“相对比较傻瓜式的架构” [1] - 公司方面回应称,在自动驾驶领域,脱离海量真实数据谈模型架构是空中楼阁,强调“空谈架构不如看疗效” [1] - 公司认为具身智能最终比拼的是整体的系统能力 [1] 公司技术应用的未来规划 - 理想的VLA模型不仅服务于公司当前的各类汽车产品形态,也将服务于未来的汽车类具身机器人 [1]