A0模型 - 财报，业绩电话会，研报，新闻

A0模型

搜索文档

自动驾驶之心· 2025-06-26 18:41

点击下方卡片，关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球由无界智慧（Spatialtemporal AI）团队推出的A0模型，是首个基于空间可供性感知的通用机器人分层扩散模型，通过具身无关的可供性表征（Embodiment-Agnostic Affordance Representation）实现了跨平台的通用操作能力，模型框架和代码等已经开源。论文链接：https://arxiv.org/abs/2504.12636 项目主页：https://a-embodied.github.io/A0/ 机器人操作面临的核心挑战在机器人技术快速发展的今天，通用化操作能力始终是制约行业发展的关键瓶颈。想象一下，当你让机器人"擦干净白板"时，它需要准确理解应该在何处施力（"where"），以及如何移动抹布（"how"）。这正是当前机器人操作面临的核心挑战——空间可供性感知理解不足。现有方法主要分为两类：基于模块化的方法和端到端的视觉-语言-动作（VLA）大模型。前者虽然能利用视觉基础模型进行空间理解，但对物体可供性的捕捉有限；后者虽能直接生成动作，却缺乏对空间 ...

重磅分享！A0：首个基于空间可供性感知的通用机器人分层模型

具身智能之心· 2025-06-25 21:52

机器人操作的核心挑战 - 通用化操作能力是机器人技术发展的关键瓶颈机器人需要准确理解"何处施力"和"如何移动"等空间可供性感知问题[3] - 现有方法分为两类基于模块化的方法对物体可供性捕捉有限端到端VLA大模型缺乏对空间位置的深入理解[3] - 在擦白板、堆叠物体等复杂任务中表现欠佳制约行业发展[3] A0模型的技术创新 - 具身无关可供性表征整合四类数据源的操作知识包括互联网数据100万单接触点标注、人机交互数据22,000条轨迹等[6][8] - 分层扩散模型架构采用基于DiT的扩散模型输入T×2高斯噪声预测T个2D路径点使用Qwen2.5-7B和SigLip作为编码器[9][10] - 两大创新模块位置偏移注意力(POA)获取运动信息空间信息聚合层(SIAL)将特征映射为2D路径点[13] 训练与执行流程 - 两阶段训练预训练阶段使用100万规模数据集微调阶段扩展至T个路径点预测[11] - 动作生成三步流程 2D→3D投影利用深度图和相机内参抓取姿态估计调用GraspNet 路径点选择与执行在SE(3)空间插值[14][15][16] - 推理阶段使用DPM-Solver DiT前向和后向过程分别设置为1000和5步[11] 实验结果 - 离线评估预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5[17] - 真实场景测试在Franka平台平均成功率62.5% 较次优方法提升18.75% 在Kinova平台达到53.75%成功率[22][23] - 擦白板任务表现突出成功率45% 较VLA方法RDT-1B和π0高出15% 执行步骤仅需4-5步[26] 应用前景与团队背景 - 应用潜力家庭服务、工业操作和居家康养等场景正在开发智能康养机器人[24] - 团队背景成员来自CMU、清华、北大等顶尖院校在顶级会议发表数百篇论文[24] - 未来方向优化抓取姿态估计和高度估计推动具身智能技术突破[27]

技术圈热议的π0/π0.5/A0，终于说清楚是什么了！功能/场景/方法论全解析~

自动驾驶之心· 2025-06-22 09:35

π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术，包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据，通过权重调整处理不同机器人的动作空间差异[3] - 训练流程基于PaliGemma VLM，融合多模态输入(图像编码器、语言编码器、proprioceptive state编码器)[3] - 独立子网络(3亿参数)负责将VLM输出转换为连续动作，采用流匹配技术生成高频率动作序列(最高50Hz)[3] π₀优势与功能 - 零样本直接执行任务，通过语言提示控制机器人无需额外微调[4] - 支持复杂任务多阶段微调，如叠衣服分解为多个步骤[4] - 语言指令跟随与高层策略集成，提升语义理解与任务规划能力[4] - 高频率精细操作(50Hz)适用于折叠衣物、组装盒子等任务[4] - 单模型适配多种机器人形态，降低部署成本[4] π₀性能分析 - 开箱即用性能：在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[4] - 衬衫折叠成功率接近100%，远超OpenVLA[6] - 复杂清理任务正确分类物体数量比Octo高40%[6] - 预训练+微调流程实现60%-80%任务完成度，显著优于从头训练[7] π0.5模型结构 - 采用双阶段训练框架和分层架构，基于Transformer的视觉-语言-动作(VLA)模型[7][9] - 分层推理机制：高级语义子任务预测+低级动作生成[9] - 动作表示融合离散标记(FAST tokenizer)和连续表示(流匹配)[9] - 预训练阶段使用400小时移动机器人数据+非移动机器人数据+网页多模态数据[9] π0.5优势与功能 - 异构数据驱动泛化，实现从未见场景中的任务执行[13] - 长时程任务处理能力，支持10分钟以上连续操作[13] - 零样本语义理解，基于网页数据预训练理解未见过物体[13] - 在"盘子入水槽"等任务中成功率比π0高25%-40%[12] - 离散-连续动作混合训练比纯扩散模型效率高3倍[12] π0.5性能分析 - 真实家庭环境中多阶段任务成功率达60%-88%，任务时长10-15分钟[23] - 随训练环境增加性能持续提升，"整理床铺"成功率从30%升至80%[24] - 跨实体数据移除后任务性能下降20%-30%[24] - 网页数据对未知物体泛化至关重要，移除后成功率从60%降至30%[24] A0模型结构 - 采用分层架构设计：高层空间Affordance理解+低层动作执行[21] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[22][25] - 预训练与微调策略：100万接触点数据集预训练+标注轨迹数据微调[25] A0优势与功能 - 跨平台泛化能力，可在多种机器人平台无缝部署[26] - 高效空间推理，避免密集空间表示的高计算成本[26] - 数据利用效率高，少量任务特定数据即可适应新场景[26] - 可完成擦黑板、物体放置、开抽屉等需要空间推理的任务[26] A0性能分析 - Franka机器人平均成功率62.5%，开抽屉任务成功率75%[27] - Kinova机器人平均成功率53.75%，轨迹跟踪任务比基线高20%[27] - 擦黑板任务成功率比MOKA高15%-20%，比ReKep高约20%[27] - 在Kinova平台擦黑板任务中成功率50%，远超RDT-1B(10%)和π₀(35%)[27]

技术圈热议的π0/π0.5/A0，终于说清楚是什么了！功能、场景、方法论全解析~

具身智能之心· 2025-06-21 20:06

π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术，包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据，通过权重调整处理不同机器人动作空间差异[3] - 训练流程继承PaliGemma VLM的语义知识，融合多模态输入(图像/语言/物理状态)[3] - 独立子网络(3亿参数)将VLM输出转换为连续动作，流匹配技术实现50Hz高频率动作序列生成[3] π₀优势与功能 - 零样本直接执行预训练覆盖的语言提示任务(如"fold shirt")[4] - 支持复杂任务多阶段微调(如叠衣服分解为4个子步骤)[5] - 语言指令跟随能力可将高层任务(如"bus the table")分解为子任务序列[6] - 流匹配技术实现50Hz精细操作，适用于衣物折叠等高精度场景[7] - 单模型适配多种机器人形态，降低部署成本[10] π₀性能分析 - 开箱即用性能：在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[11] - 微调效率：预训练类似任务仅需1-5小时数据微调，全新任务性能比从头训练提升2倍[11] - 复杂任务表现：叠衣服等任务通过"预训练+微调"实现60%-80%完成度[11] - 衬衫折叠成功率接近100%，复杂清理任务正确分类数量比Octo高40%[12] π0.5模型结构 - 采用双阶段训练框架和分层架构，基于Transformer实现多模态序列编码[13] - 分层推理机制：高级语义子任务预测+低级动作生成，结合离散/连续动作表示[16] - 预训练阶段使用400小时异构数据(97.6%非移动机器人数据)[16] - 后训练阶段引入动作专家模块优化实时控制，SigLIP视觉编码器(400M参数)+Gemma语言模型(2.6B参数)[16] π0.5优势与功能 - 异构数据驱动泛化：在未见过场景中执行任务，支持10分钟以上长时程操作[18] - 离散-连续混合训练比纯扩散模型效率提升3倍[17] - 多场景适应性：家庭环境清洁/整理任务，跨实体迁移学习能力[20] - 数据效率突破：仅用400小时移动数据(占2.4%)实现强泛化[21] π0.5性能分析 - 真实环境表现：未训练家庭中多阶段任务成功率60%-88%，单任务耗时10-15分钟[25] - 数据规模影响：104个训练位置时性能接近测试环境基线(差距<5%)[26][27] - 关键数据源：跨实体数据移除导致性能下降20%-30%，网页数据对未知物体泛化至关重要[28] A0模型结构 - 分层架构设计：高层空间Affordance理解+低层动作执行[29] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[30] - 预训练策略：100万接触点数据集预训练+标注轨迹微调[31] A0优势与功能 - 跨平台泛化：支持Franka/Kinova等机器人平台无缝部署[34] - 高效空间推理：通过接触点预测降低计算成本[34] - 数据利用效率：少量任务数据即可适应新场景[34] A0性能分析 - Franka机器人平均成功率62.5%，开抽屉任务达75%[35] - Kinova机器人轨迹跟踪任务成功率比基线高20%[35] - 擦黑板任务成功率比MOKA高15%-20%，执行步骤仅为RDT-1B的1/8-1/10[35]