MotionLib

搜索文档
百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布
量子位· 2025-05-14 16:55
技术突破 - 北大和人大团队首创具备数据-模型协同放量特性的通用动作生成框架Being-M0 [1] - 构建业界首个百万规模动作生成数据集MotionLib,规模达现有最大公开数据集的15倍 [4][10] - 研发端到端文本驱动动作生成模型,实现人体动作向多类型人形机器人的迁移 [2] 数据集创新 - 从2000万段视频中筛选出100万条高质量动作序列,建立全自动化处理流程 [7][10] - 采用分层标注方案,利用Gemini-1.5-pro生成结构化描述,细化到身体部位运动特征 [10] - 数据集包含RGB视频、深度信息等多模态数据,支持多人交互场景分析 [10] 模型架构 - 验证模型规模与数据规模的协同放大效应,13B参数模型比700M参数模型性能显著提升 [13] - 提出MotionBook二维无查找量化框架,使动作词表容量提升两个数量级 [16] - 空间-时序解耦编码保留运动多维结构特征,解决传统VQ技术信息损失问题 [16] 动作迁移 - 创新"优化+学习"两阶段方案,实现人体动作向宇树H1/H1-2/G1等机器人的高效迁移 [6][19] - 多目标优化生成满足机器人运动学约束的动作序列,保证数据质量 [20] - 轻量级MLP网络学习映射关系,提升系统实时性能同时保持准确性 [20][21] 应用前景 - 为构建通用动作生成模型提供关键设计准则,奠定通用动作智能基础 [5][14] - 推动人形机器人具身大模型、灵巧操作等技术的发展 [22] - 项目将持续迭代,目标是让机器人具备更强通用能力和自主性 [22]