人形机器人行业发展现状 - 人形机器人在全地形动态挑战赛、工业场景赛、家庭场景赛、商业场景赛等五大赛道28个高难度场景中表现出一定自主性,例如自主寻找和归类物品 [1] - 行业在精度、速度、泛化度等维度仍显不足,训练数据不足是主要瓶颈,特斯拉、谷歌及国内企业正通过建设训练场和数据集解决,但面临成本高、周期长问题 [1] - 合成数据技术路线已有突破,完全基于合成数据训练的具身智能大模型开始商用落地 [1] 具身智能训练数据挑战 - 具身智能训练数据稀缺,与文本数据相比数量差距可能达百万倍,多模态数据尤为缺乏 [2] - 特斯拉通过远程操作记录动作和环境数据,谷歌DeepMind联合斯坦福推出Open X-Embodiment Dataset含100多万条真实机器人轨迹,智元开源百万真机数据集AgiBot World [2] - 头部车厂每日数据回流达1亿条,但具身智能领域最大数据集仅百万条规模,数据不足导致模型训练效率低、场景适应能力弱 [3] 合成数据技术应用与局限 - 银河通用展示完全基于合成数据训练的GraspVLA大模型,采用10亿级合成数据,已应用于24小时无人药店,单店可管理5000多种药品、6000多个货道,北京6家门店常态化运营,年底计划扩展至全国100家 [4] - 合成数据生成视觉数据较成熟,但触觉、温度、声音等多模态数据生成仍存挑战,仿真与真实环境匹配度不足影响数据有效性 [5] - 行业通过"模拟到现实"迁移技术缩小模拟与物理环境差距,需引入物理规律约束以提升数据质量 [6] 异构数据互通解决方案 - 国地中心启动具身智能训练场,进驻100多台全尺寸人形机器人,探索数字与物理世界链接 [6] - 推出"格物-致知"开发平台,收集100多款机器人构型,通过仿真平台对齐异构数据并实现跨平台映射,避免基础功能重复训练 [7] - 计划在7月WAIC期间发布多项重要成果,解决行业数据互通痛点 [7]
未来智造局|“突围”具身智能数据难题
新华财经·2025-06-06 15:18