Workflow
真机数据
icon
搜索文档
WAIC观察|仿真不稳、真机太贵?机器人数据最优解出现了吗
第一财经· 2025-07-28 10:07
机器人训练数据路径争议 - Physical Intelligence联合创始人Sergey Levine主张真实世界数据对机器人训练不可或缺 挑战业界用仿真数据替代真机的做法 [1] - 行业面临关键选择:优先依赖低成本快速的仿真数据 或回归真实环境积累高质量真机数据 [1] 仿真数据优先派观点 - 银河通用采用Sim2Real路径 主要依靠合成仿真数据 主张在零真实数据情况下启动训练 [2] - 通过"摇操"采集真人动作数据对创业公司成本高昂 [2] 真实数据优先派观点 - 擎朗智能CEO李通强调需将机器人部署到实际岗位 通过真实任务积累有效数据 [3] - 机器人需在明确岗位达到万级部署量才能积累对模型有效的数据 非百台级别能解决 [3] - 服务业场景底层"动作元素"(抓取、递送、避障等)可泛化 但需足够丰富真实数据支撑 [3] 数据融合技术挑战 - 灵初智能指出仿真和真机数据不能简单混合使用 模型会识别数据来源并分配不同权重 [9] - 灵初方案:仿真用于大规模预训练 少量真机数据完成最终微调 [9] - 北京人形机器人创新中心仿真与真实数据使用比例为7:3 [9] - 国家地方共建人形机器人创新中心真实数据与仿真数据占比为3:1 [9] 真实数据的不可替代性 - 智元机器人100%使用真机数据训练多模态大模型和VLA模型 [10][12] - 自变量机器人COO杨倩指出仿真在"下半身"训练(步态规划等)占主流 但"上半身"精细操作仿真能力有限 [10] - 长链条柔性交互任务(如制作香囊)仿真工程开销巨大 甚至不可完成 [10] - 自变量机器人采用端到端真实数据采集 一周内完成机器人完整制作任务训练调优 [12] 行业实践与投入 - 智元机器人自建专业数采工厂 形成全球最大数据集AgiBot World并开源 [12] - 发布行业首个通用具身基座模型启元大模型 具备"一脑多形"适配能力 [12] - 自变量机器人处于PoC阶段 与酒店、养老等行业联合测试非结构化环境部署能力 [10] 行业现状共识 - 真实和仿真数据孰优孰劣尚无定论 尚未有企业通过单一数据路径跑出通用智能完全体 [4] - 具身智能处于落地早期阶段 高昂的真实数据采集成本是行业必须面对的代价 [10]