具身智能训练数据

搜索文档
数据“燃料”催化具身智能:训练工厂涌现 行业加速破局
中国证券报· 2025-06-28 04:54
具身智能数据工厂建设 - 帕西尼具身智能超级数据工厂在天津空天数字产业园投用,占地12000平方米,核心产品为数据[1] - 国内多地建立具身智能数据采集工厂,包括帕西尼天津工厂、智元机器人上海工厂和北京具身智能机器人创新中心工厂[1] - 智元数据采集中心占地3000平方米,已于2024年9月启动[2] 数据规模与采集能力 - 具身智能可用数据量仅为大语言模型的几百分之一,大语言模型数据规模达十万亿级,具身智能仅百万量级[1][2] - 帕西尼天津工厂每天最多可采集55万条数据,预计年产量2亿条,数据合格率92%以上[2] - 智元数据采集中心已累计采集超百万条高质量数据,覆盖家居、餐饮、工业、商超和办公五大类场景[3] 数据采集技术 - 帕西尼采用人类数据采集方式,采集员穿戴PMEC设备获取多视角视觉、触觉等信息,自主研发PMEC超采技术[3][4] - 智元机器人采用遥操作采集方法,数据采集员操作机械臂重复动作,每天采集约200条数据[5] - 帕西尼已完成上百种任务采集,预计一年内完成千种任务采集[4] 数据应用与模型训练 - 帕西尼数据应用于多模态、跨本体、跨任务、跨场景的具身智能扩散模型[5] - 智元机器人发布通用具身基座模型GO-1,借助大模型泛化推理能力减少数据采集量[5] - 智元开源百万真机数据集AgiBot World,已被全球多家科技企业用于具身模型开发[6] 行业挑战与发展方向 - 数据标准化和质量提升是产业关键,但数据归属、复用、定价等问题仍未解决[6] - 缺乏数据采集规范导致部分训练数据难以迁移和复用[6] - 帕西尼正在参与订立数据采集标准,将于近期发布[6]