Workflow
分层架构
icon
搜索文档
腾讯张正友:具身智能必须回答的三个「真问题」
机器之心· 2025-08-10 12:31
腾讯具身智能开放平台Tairos发布 - 公司发布具身智能开放平台Tairos,以模块化方式提供大模型、开发工具和数据服务,旨在为行业提供通用支撑体系 [2] - 该平台基于Robotics X实验室七年技术积累,涵盖多模态四足机器人Max、轮腿机器人Ollie、灵巧手TRX-Hand等自研项目 [2] - 平台化路径是对行业挑战的回应,也预示未来生态布局,在技术路线尚无定论背景下具有战略意义 [2] 分层架构的技术路线选择 - 分层架构是当前更务实路径,源于效率与现实权衡,将人类对智能结构的先验知识注入模型架构 [5][6] - SLAP³架构包含多模态感知模型、规划大模型和感知行动联合大模型,边界动态变化 [7][8] - 感知行动联合大模型(小脑)负责快速反应(系统1),感知和规划大模型(系统2)处理复杂任务 [9] - 底层经验通过记忆库机制反哺上层模型,实现闭环学习 [11] 具身智能的第一性原理 - 核心问题是探究"身体"与"大脑"如何实现有机融合,而非简单将AI大模型适配到机器人 [17] - 真正具身智能需深刻理解身体形态、环境物理规律和任务目标 [18] - 动作规划本质是稀疏、第一人称的生成过程,与稠密、第三人称的视频生成存在本质区别 [20][21] 行业创新与商业化平衡 - 行业呈现爆发式发展,需要处理短期利益与长远目标的关系 [23] - 创新定力体现为放弃短期商业化诱惑,专注根本性科学问题探索 [24] - 生态繁荣需要不同角色贡献,初创团队选择确定性高场景是务实生存策略 [24]
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 09:35
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人的动作空间差异[3] - 训练流程基于PaliGemma VLM,融合多模态输入(图像编码器、语言编码器、proprioceptive state编码器)[3] - 独立子网络(3亿参数)负责将VLM输出转换为连续动作,采用流匹配技术生成高频率动作序列(最高50Hz)[3] π₀优势与功能 - 零样本直接执行任务,通过语言提示控制机器人无需额外微调[4] - 支持复杂任务多阶段微调,如叠衣服分解为多个步骤[4] - 语言指令跟随与高层策略集成,提升语义理解与任务规划能力[4] - 高频率精细操作(50Hz)适用于折叠衣物、组装盒子等任务[4] - 单模型适配多种机器人形态,降低部署成本[4] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[4] - 衬衫折叠成功率接近100%,远超OpenVLA[6] - 复杂清理任务正确分类物体数量比Octo高40%[6] - 预训练+微调流程实现60%-80%任务完成度,显著优于从头训练[7] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer的视觉-语言-动作(VLA)模型[7][9] - 分层推理机制:高级语义子任务预测+低级动作生成[9] - 动作表示融合离散标记(FAST tokenizer)和连续表示(流匹配)[9] - 预训练阶段使用400小时移动机器人数据+非移动机器人数据+网页多模态数据[9] π0.5优势与功能 - 异构数据驱动泛化,实现从未见场景中的任务执行[13] - 长时程任务处理能力,支持10分钟以上连续操作[13] - 零样本语义理解,基于网页数据预训练理解未见过物体[13] - 在"盘子入水槽"等任务中成功率比π0高25%-40%[12] - 离散-连续动作混合训练比纯扩散模型效率高3倍[12] π0.5性能分析 - 真实家庭环境中多阶段任务成功率达60%-88%,任务时长10-15分钟[23] - 随训练环境增加性能持续提升,"整理床铺"成功率从30%升至80%[24] - 跨实体数据移除后任务性能下降20%-30%[24] - 网页数据对未知物体泛化至关重要,移除后成功率从60%降至30%[24] A0模型结构 - 采用分层架构设计:高层空间Affordance理解+低层动作执行[21] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[22][25] - 预训练与微调策略:100万接触点数据集预训练+标注轨迹数据微调[25] A0优势与功能 - 跨平台泛化能力,可在多种机器人平台无缝部署[26] - 高效空间推理,避免密集空间表示的高计算成本[26] - 数据利用效率高,少量任务特定数据即可适应新场景[26] - 可完成擦黑板、物体放置、开抽屉等需要空间推理的任务[26] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务成功率75%[27] - Kinova机器人平均成功率53.75%,轨迹跟踪任务比基线高20%[27] - 擦黑板任务成功率比MOKA高15%-20%,比ReKep高约20%[27] - 在Kinova平台擦黑板任务中成功率50%,远超RDT-1B(10%)和π₀(35%)[27]