机器人操作的核心挑战 - 通用化操作能力是机器人技术发展的关键瓶颈 机器人需要准确理解"何处施力"和"如何移动"等空间可供性感知问题[3] - 现有方法分为两类 基于模块化的方法对物体可供性捕捉有限 端到端VLA大模型缺乏对空间位置的深入理解[3] - 在擦白板、堆叠物体等复杂任务中表现欠佳 制约行业发展[3] A0模型的技术创新 - 具身无关可供性表征 整合四类数据源的操作知识 包括互联网数据100万单接触点标注、人机交互数据22,000条轨迹等[6][8] - 分层扩散模型架构 采用基于DiT的扩散模型 输入T×2高斯噪声 预测T个2D路径点 使用Qwen2.5-7B和SigLip作为编码器[9][10] - 两大创新模块 位置偏移注意力(POA)获取运动信息 空间信息聚合层(SIAL)将特征映射为2D路径点[13] 训练与执行流程 - 两阶段训练 预训练阶段使用100万规模数据集 微调阶段扩展至T个路径点预测[11] - 动作生成三步流程 2D→3D投影利用深度图和相机内参 抓取姿态估计调用GraspNet 路径点选择与执行在SE(3)空间插值[14][15][16] - 推理阶段使用DPM-Solver DiT前向和后向过程分别设置为1000和5步[11] 实验结果 - 离线评估 预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5[17] - 真实场景测试 在Franka平台平均成功率62.5% 较次优方法提升18.75% 在Kinova平台达到53.75%成功率[22][23] - 擦白板任务表现突出 成功率45% 较VLA方法RDT-1B和π0高出15% 执行步骤仅需4-5步[26] 应用前景与团队背景 - 应用潜力 家庭服务、工业操作和居家康养等场景 正在开发智能康养机器人[24] - 团队背景 成员来自CMU、清华、北大等顶尖院校 在顶级会议发表数百篇论文[24] - 未来方向 优化抓取姿态估计和高度估计 推动具身智能技术突破[27]
重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型
具身智能之心·2025-06-25 21:52