视觉语言动作模型
搜索文档
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题
具身智能之心· 2026-01-19 08:49
文章核心观点 - 提出了一种名为Observation-Centric VLA(OC-VLA)的新范式,旨在解决视觉-语言-动作模型中感知与动作空间错位的问题 [2][3] - 该方法的核心是将机器人动作的预测目标从机器人基坐标系重新定义到第三人称相机坐标系,从而实现视觉观察与动作预测在相同空间参考系中的对齐 [3][5] - 该范式被证明能显著提升模型在多种机器人任务中的成功率,并增强其在视角变化和不同硬件配置下的泛化能力与鲁棒性 [10][15][21] OC-VLA提出的背景和动机 - 现有VLA模型通常使用在相机坐标系中预训练的视觉模型,而机器人控制信号则在机器人基坐标系中定义,这种感知与动作空间的不一致阻碍了策略的有效学习和迁移 [2] - 机器人数据采集视角多样且硬件配置异构,要求模型从有限的二维观测中推断出在机器人坐标系中一致的三维动作,这在大规模预训练中引入了学习冲突并阻碍泛化 [2] 核心设计与方法 - OC-VLA的核心设计是将预测目标由机械臂基座坐标系重新定义到第三人称相机坐标系中,从而缓解感知与动作之间的错位问题 [5] - 训练阶段:利用外参矩阵将机械臂位姿从世界坐标系转换到相机坐标系,并在此坐标系下计算机械臂动作 [6][7] - 推理阶段:将模型预测的位姿或动作从相机坐标系转换回机械臂基座坐标系,以用于实际控制 [8] - 该方法完全模块化,不依赖特定网络结构,可无缝集成至主流的离散或连续动作生成式策略模型,且不增加额外计算成本 [10] 实验结果 ManiSkill2仿真实验 - 在五个代表性任务上进行了测试,使用包含超过4万条独特轨迹、从30万个随机相机视角渲染的数据集 [13] - 实验结果显示,使用在相机坐标系中定义的动作作为预测目标能显著提高任务成功率,在离散动作空间模型中成功率提升约14% [15] - 具体数据:在连续动作空间下,使用相机坐标系(Camera)预测的平均成功率为53.2%,高于机器人坐标系(Robot)的45.2%;在离散动作空间下,相机坐标系预测的成功率为52.4%,高于机器人坐标系的38.6% [16] 真实世界Franka机械臂实验 - 使用配备三台RealSense D435i相机的Franka机械臂平台,在固定相机、相机位置扰动及零样本相机位置等设置下进行测试 [17][19] - 在固定相机条件下,OC-VLA(Cam Base)的平均成功率为77.5%,高于基线(Robot Base)的66.3% [20] - 在相机位置扰动条件下,OC-VLA的平均成功率为73.8%,高于基线的61.3% [20] - 在包含15个任务的少样本评估中,OC-VLA(Camera Base)的平均成功率为68.0%,优于其他对比方法,如OpenVLA-OFT的63.3%和Robot Base的58.0% [20] - 实验表明OC-VLA不仅提升了任务成功率,也显著增强了模型在零样本视角下的表现能力 [21] 方法扩展与应用 - OC-VLA可自然扩展到基于人类演示数据的训练范式中,通过关键点检测提取人类腕部运动轨迹并与机械臂动作空间对齐 [23] - 引入人类演示数据能进一步增强模型在多相机视角条件下的泛化能力,使其在视角变化场景中表现更稳健 [23]
人形机器人电影院“上班”!工作14小时不累,卖了1000杯还零失误
搜狐网· 2026-01-06 17:17
核心观点 - 越疆机器人旗下的人形机器人Atom在影院爆米花售卖场景完成全球首次公开商业演示,实现了日销1000杯、单日营收突破2万元的业绩,标志着人形机器人作为“全自主可靠劳动力”步入真实商业环境 [1][3] 技术突破与系统能力 - 机器人采用“小场景、深打磨”策略,选择高频、标准化的爆米花售卖场景进行技术闭环验证,该场景对人形机器人的感知、决策与执行协同能力要求极高,是一个“高动态任务” [3] - 支撑其运行的核心是自研的Dobot-VLA(视觉-语言-动作)模型,该模型实现了从环境感知到任务执行的端到端智能闭环,使机器人能够基于实时感知理解任务、规划动作并自主纠错 [4][9] - 该模型具备自主任务规划与实时纠错能力,能对复杂任务进行分解与序列规划,并在执行中持续监测状态,遇到突发状况时可自主诊断问题并触发动态重规划,无需预设异常程序 [11] - 在演示中,机器人展现了强大的自主纠错能力,例如能识别爆米花被倒掉一半并主动补装,在容器被移动后能重新识别并抓取,在爆米花意外倾倒后能再次执行盛装操作 [11] - 通过前期深入的环境校准、动线优化及主动模拟各种异常测试,机器人最终实现了在复杂影院环境中单日连续工作14小时、零失误的稳定运营记录 [12][15] 商业化落地与价值体现 - 此次演示初步验证了在特定场景下,机器人替代或辅助人力能在提升效率、延长服务时间及保持服务标准一致性方面创造可量化的商业价值,为规模部署和商业模式探索提供了关键数据支撑 [7] - 爆米花售卖场景与娱乐、休闲强关联,符合商家实际需求且为大众熟悉,能生动传递“机器人为人服务”的核心价值,机器人展现的流畅语音互动及挥手、比心等细节,实现了有温度的具身交互 [7] - 电影院场景的成功验证为人形机器人在其他服务行业(如餐厅、咖啡厅、酒店、零售店)的应用打开了想象空间,随着技术成熟和成本下降,有望逐步替代部分重复性劳动,缓解服务行业用工难题 [16] - 这次实战验证了以Dobot-VLA为代表的端到端一体化智能架构在实际场景中的可行性,相比传统分模块系统,更适合处理开放环境中的复杂任务,为人形机器人的智能化发展提供了新方向 [16]
回望2025·实物见变迁丨车轮上的新体验——2025年汽车“智变”里的科技跃迁
新华社· 2025-12-22 09:37
文章核心观点 - 2025年中国汽车产业完成了从“电动化”到“智能化”的赛道切换 智能驾驶技术正从技术验证加速转向场景落地 并以前所未有的速度普及和升级 为消费者带来全新的驾驶体验 同时行业也进入了以用户体验和成本控制为核心的激烈洗牌阶段 [1][2][3][5] 智能驾驶普及现状与消费者体验 - 2025年前三季度 具备组合驾驶辅助功能(L2)的乘用车新车销量同比增长21.2% 渗透率达64% 即每卖出10辆新车中有超过6辆具备基础智驾能力 [1] - 智能泊车、车道保持等驾驶辅助功能已成为越来越多车型的标配 相关场景从演示变为日常体验 甚至不到10万元人民币的车型也已配备 [1] - 消费者对智能驾驶的接受程度明显提高 在试驾或选择配置时会主动提及 关注点已从单一高速场景转向应对城市拥堵、路口博弈等城区复杂路况 [1][2] - 智能驾驶为消费者带来便利与安全体验提升 例如自动刹停避让盲区危险、在长途或堵车时接替重复操作等 [1] 高级别自动驾驶技术突破与落地 - 2025年 L3(有条件自动驾驶)和L4(高度自动驾驶)级别技术接连迎来突破 工信部已附条件许可两款L3级自动驾驶车型产品 [2] - 中国首块L3级自动驾驶专用正式号牌“渝AD0001Z”在重庆诞生 安装在深蓝汽车产品上 于重庆市内部分路段开展上路通行试点 [2] - 在北京、上海、广州、深圳等地 通过手机App呼叫无人驾驶Robotaxi已成为部分通勤族的出行选择 用户接受度从好奇尝鲜转向常态化使用 [2] - 2025年成为L3级自动驾驶从元年走向实质性落地的关键年份 高级别自动驾驶试点加速扩围 带动Robotaxi车队规模和运营范围进一步拓展 [2][3] 技术发展与成本趋势 - 端到端大模型、视觉语言动作模型(VLA)、世界模型等前沿技术在2025年接连实现突破 [3] - “轻地图”、“无图”技术方案成熟度大幅提升 为智能驾驶的规模化普及奠定了基础 [3] - 智能驾驶硬件成本正以每两年减半的速度快速下探 而智驾体验有望实现两年十倍的提升 推动智能辅助功能逐渐成为车型标配 [3] 行业竞争格局演变 - 智能驾驶市场在2025年迎来从“技术验证”加速转向“场景落地”的关键拐点 [3] - 行业正进行一轮严酷的洗牌 只有具备技术实力和量产经验的企业才能留在市场中 [4] - 未来市场竞争重点将实质性转向用户体验、成本控制、产品生态体系等领域 [5] - 市场结构将呈现显著的分层与专业化特征 预计未来将由少数具备全栈技术研发能力、软硬件垂直整合优势以及大规模数据闭环生态的领先企业主导 [5]
小鹏汽车-W11月共交付智能电动汽车36728辆 同比增长19%
智通财经· 2025-12-01 18:11
交付业绩表现 - 2025年11月公司智能电动汽车交付量为36,728辆,同比增长19% [1] - 2025年1月至11月公司累计交付量达到391,937辆,同比增长156% [1] - 2025年1月至11月公司海外交付量达到39,773辆,同比增长95% [1] 技术创新与产品发布 - 2025年11月5日公司举办2025科技日活动,推出第二代视觉语言动作模型(XPENG VLA2.0)、自动驾驶出租车(Robotaxi)和全新一代IRON人形机器人等"物理AI"应用 [1] - 上述AI应用预计将于2026年开始量产 [1] - 2025年12月下旬公司将邀请中国用户参与第二代视觉语言动作模型的试点计划 [1] 智能驾驶技术应用 - 2025年11月公司智能导航辅助驾驶(XNGP)的城区智驾月度活跃用户渗透率达到84% [1]
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
机器人感知大升级!轻量化注入几何先验,成功率提升31%
量子位· 2025-09-28 19:54
技术方案核心 - 提出一种名为Evo-0的轻量化方法,旨在增强视觉语言动作模型的三维空间理解能力,无需依赖显式深度输入或额外传感器[4] - 该方法利用视觉几何基础模型从多视角RGB图像中隐式提取三维结构信息,并将其融合到原有视觉语言模型中[4] - 通过一个交叉注意力融合模块,将二维视觉标记作为查询,三维几何标记作为键/值,实现二维与三维表征的融合[6] 性能表现 - 在RLBench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0模型15%,超过openvla-oft模型31%[5] - 在真实机器人操作任务中,Evo-0在全部5个任务上均超越基线模型pi0,平均成功率提升28.88%,达到57.41%[12][13] - 在训练效率方面,仅用15,000步训练的Evo-0模型性能已超过用20,000步训练的pi0模型[8] 鲁棒性评估 - 在五类干扰条件下的鲁棒性评估中,Evo-0表现出优于基准模型的稳定性[14] - 在存在未见过的干扰物体时,Evo-0的抓取正确率达到100%,整体正确率为70%,显著高于基准的60%和20%[15] - 在背景颜色变化、目标位置/高度变化以及相机视角变化等多种干扰条件下,Evo-0的性能均优于或等于基准模型[15] 行业意义 - 该方法通过绕过深度估计误差与传感器需求,以插件形式增强视觉语言动作模型的空间建模能力[18] - 该技术方案具有训练高效和部署灵活的特点,为通用机器人策略的发展提供了新的可行路径[18]
人形机器人,更快更高更强
人民日报· 2025-09-01 09:03
行业销量与增长 - 今年人形机器人销量有望突破1万台 同比增长125% [1] - 产业正进入规模化落地阶段 已在工业制造 零售配送 餐饮服务等领域试点投入 [1] 政策支持与产业布局 - 具身智能首次写入政府工作报告 国务院提出培育智能原生新模式新业态 [3] - 北京设立总规模1000亿元政府投资基金 上海目标2027年具身智能核心产业规模突破500亿元 [3] - 杭州将人形机器人整机 软件算法及关键零部件列入重点科研项目支持范围 [3] 成本趋势与规模化路径 - 新一代关节模组价格从上千元降至百元区间 整机成本预计进一步下降 [4] - 规模化应用遵循工业先于物流 商用先于家用的路径 [4] 技术创新与硬件发展 - 硬件创新涵盖关节执行器 传感器等核心部件 技术路线趋向标准化 [3] - 谐波减速器 高功率密度电机 传感器发展提升关节模块和灵巧手设计水平 [7] - 高性能一体化力控关节支持叠衣服 取饮料等精细操作 [8] 算法与数据驱动 - 大模型发展推动运动能力 感知能力及智能水平快速突破 [7] - 视觉语言动作模型助力打造端到端决策系统 [7] - 高质量真实数据积累提升机器人场景应用能力 [8] 通信与定位技术支持 - 卫星导航定位 5G通信等技术支撑人形机器人发展 [8] - 时空算力背包提供北斗动态厘米级定位和多模型协同推理能力 [8] - 5G-A网络峰值达2.4Gbps 支撑环境交互 实时决策 精准定位等需求 [9] 产品性能与自主能力 - 优必选Walker S2拥有52个自由度 可稳定搬运15公斤负载并完成自主换电 [9] - 全自主模式需完成感知-决策-执行闭环 应对突发状况 [11] - 工业人形机器人实训效率达人类水平30%-40% [11] 应用场景拓展 - 工业场景已投入超过100台机器人实训 [11] - 家庭场景可提供健康管理 远程关爱等功能 [11] - 未来将在生产 服务领域扮演重要角色 实现人机协作与融合 [12]
元戎启行VLA模型三季度要量产,能否冲破市场+技术壁垒?
南方都市报· 2025-06-13 23:04
公司动态 - 元戎启行宣布VLA模型将于2025年第三季度推向消费者市场 并预计在年内上车五款车型 [1] - VLA模型具备四大"超能力":盲区破解 异形障碍物识别 路标解析 语音控车 [1] - 公司总部位于深圳 自2018年成立以来专注于自动驾驶和车联网技术 [3] - 2024年第四季度公司在城区高阶智能辅助驾驶供应商市场占据超15%份额 [6] - 2024年11月完成C1轮融资 获得一亿美元资金 [8] 技术突破 - VLA模型是视觉语言动作模型 具备全程可求导特性 解决传统智能驾驶的"黑盒问题" [3] - 模型能将推理过程清晰展示给用户 增强系统可解释性 [4] - 在复杂城市道路中能精准解读潮汐车道 可变车道等复杂规则 [6] - 通过技术优化在100TOPS算力的骁龙SA8650平台上实现复杂场景运行 降低成本 [7] 市场挑战 - 行业已进入激烈竞争阶段 需要突破华为 地平线 Momenta等品牌的包围 [8] - 近期辅助驾驶事故频发 消费者对产品可靠性要求更高 品牌依赖度提升 [8] - 100TOPS算力是否足以应对所有复杂城市路况尚未经过大规模验证 [8] - 自动驾驶行业融资环境降温 公司面临资金压力 [8] - 从L4降维至L2赛道 转向量产导向的硬件压缩 属于"轻量化突围"策略 [9] 行业趋势 - 车企愈发看重系统稳定性和成本 可能导致企业降价竞争 利润空间压缩 [9] - 长期投入的底层技术创新面临资金断流风险 可能影响后续技术优化升级 [9]