CASBOT W1
搜索文档
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知
机器之心· 2025-11-26 15:07
文章核心观点 - 视觉-语言-动作模型在机器人操控领域潜力巨大,但在处理长时序或精细操作任务时,因缺乏三维空间几何感知能力而性能下降 [2] - 公司与中国科学院自动化研究所提出QDepth-VLA模型,通过量化深度预测作为辅助监督,增强模型的三维空间感知与推理能力,提升复杂操作场景下的操控精度 [2][8] - 该方法在仿真与真实环境测试中均显示出显著性能提升,为机器人从“可演示”迈向“可长期实际工作”提供了关键基础 [18][34][35] 技术挑战与现有方法 - 当前VLA模型面临的关键挑战是缺乏真实三维空间理解能力,尤其在精细化或长时程多步骤操作任务中难以建立稳定的三维几何关联 [5] - 行业主流探索方向包括直接注入3D特征、3D特征投影方法以及辅助3D视觉预测任务,但前两者存在模型复杂度高或信息损失的问题 [5] - 辅助3D视觉预测任务更具潜力,但直接使用像素级深度图作为监督可能引入噪声,削弱策略学习稳定性 [6] 方法设计 - QDepth-VLA的核心设计包括采用Video-Depth-Anything进行高精度深度图标注,从源头减少噪声和漂移 [11] - 通过VQ-VAE对深度图进行离散化编码,转化为结构化的深度token,以避免像素级深度回归的噪声干扰 [12] - 设计了独立的Depth Expert模块,基于Transformer架构预测深度token,在不干扰视觉-语言主干的前提下提供几何感知信号 [13] - 采用混合注意力机制在不同模态间调控信息流,防止深度噪声干扰动作生成,同时保持跨模态对齐能力 [14] - 整体训练目标整合了动作与深度两类监督信号,实现协同学习 [15] 实验验证 - 在Simpler仿真环境中,模型在WidowX250与Google Robot任务上,相比基础模型Open π0,平均成功率分别提升8.5%与3.7% [20] - 在LIBERO仿真任务中,相较于基于深度图输入的3D-CAVLA,QDepth-VLA平均提升约2.8% [26] - 真实环境实验使用单个Piper机械臂,QDepth-VLA在抓取香蕉等基础任务上成功率相比ACT基线提升约20%,在更具挑战的任务中也实现约10%的性能提升 [28][30] - 消融实验表明,移除深度监督导致平均成功率由68.5%降至65.6%,在需要精准三维对齐的任务中跌幅显著,验证了深度分支对立体空间感知的关键作用 [31][32] 总结与行业应用展望 - 实验结果表明,引入量化深度监督能在长程与精细操作任务中带来显著的成功率提升,三维几何先验对机器人稳定操控具有重要价值 [34] - 公司计划将QDepth-VLA的核心能力模块融入多产品序列,包括支持桌面级任务的CASBOT 02、工业与商服场景的CASBOT W1以及高精度操作的Handle-L1灵巧手 [35] - 行业未来研究方向将围绕面向未来的深度预测和更高效的深度表征学习展开,以支持更长时程的策略规划并提升推理稳定性 [35] - 该方法推动具身智能走向可规模化、可复制、可持续的真实应用阶段,构建从模型到部署的长期闭环能力 [36]
跳街舞、打拳击、当服务员......数百款机器人亮相WAIC“秀绝技”
华尔街见闻· 2025-07-27 20:33
2025世界人工智能大会(WAIC)核心观点 - 人形机器人从表演性展示转向实际生产应用 成为展会绝对焦点 超150台集中亮相 创中国人形机器人最大规模展示纪录 [1] - 动态实景展示成为主流 机器人具备打拳 煮咖啡 分拣物料等实用功能 覆盖车间 超市 医院等多场景 [1] - 行业进入规模化采购阶段 中国移动1.24亿元订单落地 车企超500台意向订单确认 行业平均增速达50%-100% [15] 参展企业及产品亮点 银河通用 - Galbot四足机器狗获"镇馆之宝"称号 实现汽车工厂SPS零件精准分拣 搬运效率媲美人类工人 已与极氪工厂合作测试 [3] 星动纪元 - L7双足人形机器人身高1米71 可完成街舞动作与快递分拣 XHAND1灵巧手具备人手精度 能执行夹纸 按摩等精细操作 Q5服务机器人支持37国语言 适配国际化场景 [5] 云深处科技 - 绝影X30四足机器人实现电力巡检全流程自动化 山猫轮足机器人展示70cm高台翻越 空翻等高难度动作 [7] 擎朗智能 - XMAN-F1双足机器人完成爆米花制作与饮料调制 展示精准服务流程 实现全球首秀 [9] 灵宝CASBOT - CASBOT W1专注仓储物流场景 CASBOT 02具备情绪互动能力 可进行猜拳游戏并反馈情绪 [10] 宇树科技 - 拳击机器人完成连贯格斗动作 具备自主爬起功能 现场展示吸引大量观众 [11] 智平方 - AlphaBot通过大模型实现多任务处理 包括打冰淇淋 煮咖啡 码垛等 被观众评价"像真店员" [12] 傅利叶智能 - GR-3人形机器人采用仿肤材质 主打家庭陪伴与医疗照护 配套"康复港"解决方案整合30多款康复机器人 [14] 行业商业化进展 - 摩根士丹利预测2025年下半年进入商业落地期 智元机器人中标7800万元全尺寸项目 宇树科技获4605万元订单 [15] - 汽车制造领域应用加速 优必选获500台意向订单 乐聚机器人向北汽交付100台 [15] - 行业创新速度显著提升 日均至少1款新产品发布 出货量增长节奏加快 [15]