Workflow
空间可供性感知
icon
搜索文档
重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型
自动驾驶之心· 2025-06-26 18:41
点击下方 卡片 ,关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 由无界智慧(Spatialtemporal AI)团队推出的A0模型,是首个基于空间可供性感知的通用机器人分层扩散 模型,通过具身无关的可供性表征 (Embodiment-Agnostic Affordance Representation) 实现了跨平台的通 用操作能力,模型框架和代码等已经开源。 论文链接:https://arxiv.org/abs/2504.12636 项目主页:https://a-embodied.github.io/A0/ 机器人操作面临的核心挑战 在机器人技术快速发展的今天,通用化操作能力始终是制约行业发展的关键瓶颈。想象一下,当你让机器 人"擦干净白板"时,它需要准确理解应该在何处施力("where"),以及如何移动抹布("how")。这正是 当前机器人操作面临的核心挑战——空间可供性感知理解不足。 现有方法主要分为两类:基于模块化的方法和端到端的视觉-语言-动作(VLA)大模型。前者虽然能利用视 觉基础模型进行空间理解,但对物体可供性的捕捉有限;后者虽能直接生成动作,却缺乏对空间 ...
重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型
具身智能之心· 2025-06-25 21:52
机器人操作的核心挑战 - 通用化操作能力是机器人技术发展的关键瓶颈 机器人需要准确理解"何处施力"和"如何移动"等空间可供性感知问题[3] - 现有方法分为两类 基于模块化的方法对物体可供性捕捉有限 端到端VLA大模型缺乏对空间位置的深入理解[3] - 在擦白板、堆叠物体等复杂任务中表现欠佳 制约行业发展[3] A0模型的技术创新 - 具身无关可供性表征 整合四类数据源的操作知识 包括互联网数据100万单接触点标注、人机交互数据22,000条轨迹等[6][8] - 分层扩散模型架构 采用基于DiT的扩散模型 输入T×2高斯噪声 预测T个2D路径点 使用Qwen2.5-7B和SigLip作为编码器[9][10] - 两大创新模块 位置偏移注意力(POA)获取运动信息 空间信息聚合层(SIAL)将特征映射为2D路径点[13] 训练与执行流程 - 两阶段训练 预训练阶段使用100万规模数据集 微调阶段扩展至T个路径点预测[11] - 动作生成三步流程 2D→3D投影利用深度图和相机内参 抓取姿态估计调用GraspNet 路径点选择与执行在SE(3)空间插值[14][15][16] - 推理阶段使用DPM-Solver DiT前向和后向过程分别设置为1000和5步[11] 实验结果 - 离线评估 预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5[17] - 真实场景测试 在Franka平台平均成功率62.5% 较次优方法提升18.75% 在Kinova平台达到53.75%成功率[22][23] - 擦白板任务表现突出 成功率45% 较VLA方法RDT-1B和π0高出15% 执行步骤仅需4-5步[26] 应用前景与团队背景 - 应用潜力 家庭服务、工业操作和居家康养等场景 正在开发智能康养机器人[24] - 团队背景 成员来自CMU、清华、北大等顶尖院校 在顶级会议发表数百篇论文[24] - 未来方向 优化抓取姿态估计和高度估计 推动具身智能技术突破[27]