Workflow
首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析
机器之心·2025-09-29 14:55

核心观点 - 北京智源人工智能研究院开源具身智能基座大模型RoboBrain-X0 实现跨本体泛化与统一控制 通过统一动作空间和分层任务拆解 在零样本条件下驱动多种异构机器人完成复杂任务 为行业提供可复用通用基座[3][5][38] 技术架构创新 - 采用统一动作空间映射 将机械臂/移动底盘等异构机器人的控制信号统一为末端执行器三维位姿描述 跨越自由度与结构差异[14][15] - 引入动作Tokenizer机制 通过分组残差量化将连续轨迹离散为可迁移动作原语token 提升训练推理效率与控制稳定性[16] - 实现三层分层推理:高层自然语言指令解析与任务分解 中层动作原语序列生成 底层控制信号解码 确保语义与控制一致性[19][22][24] 性能表现 - Libero仿真评测综合成功率96.3% 在空间理解/物体交互/目标导向等所有维度超越π0等基线模型[29] - 真机评测总体成功率48.9% 达基线模型π0(19.8%)的2.5倍 基础抓放任务实现100%成功率[33][36] - 零样本迁移能力突出:仅通过统一预训练即可在不同本体完成pick&place任务 指令跟随与场景切换稳定[6] - 小样本微调效应显著:每个任务仅需50条样本微调 即超越主流基线 展现高数据效率与迁移性[6] 数据集与开源 - 同步开源核心训练数据集 包含通用感知到具身理解数据(如物体affordance查询/轨迹生成)及多样化动作到泛化技能数据[27][30] - 数据集经统一格式化与质量控制 提供可复现跨设备评测基准 涵盖真实机器人采集与开源动作数据(如Agibot World)[24][27][30] - 开源地址包含Github模型仓库(FlagOpen/RoboBrain-X0)及HuggingFace多芯片版本(FlagRelease/RoboBrain-X0-FlagOS)[6] 行业意义 - 打破本体枷锁 解决单一机器人体系数据壁垒与适配成本高问题 促进跨本体知识共享与数据飞轮效应[8][17][39] - 推动具身智能从单点突破迈向规模化落地 使机器人智能能力可像APP快速适配 加速产业应用进程[39][40] - 为开发者提供通用基座 降低底层重复开发成本 转向高层创新与应用 促进软硬件解耦与生态繁荣[39]