交叉点

搜索文档
关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章
机器之心· 2025-07-22 12:25
大模型训练数据挑战 - 训练大模型难度随规模扩大和应用领域拓展而增加,需要海量数据[2] - 不同类型模型对数据需求差异显著:LLM依赖文本、VLM需图文结合、VLA要求真实机器人行动数据[3] - Agent训练需带行动标签的真实交互数据,成本远高于网页文本/图像采集[4] 替代数据方案探索 - 研究者尝试通过仿真、人类视频、手持夹爪设备等低成本方案替代真实数据[8][10][12][13] - 仿真方案通过人为设计训练环境并引入随机变化提升鲁棒性,但高度依赖预设条件[11] - 人类视频方案需建立人体-机器人动作映射,受限于动力学差异和预设策略[12] 替代数据局限性 - 所有替代方案本质是妥协,会削弱模型本应具备的泛化能力[14] - 模型能力越强,越容易识别替代数据与真实领域差异,导致有效策略空间缩小[19][23] - 信息隐藏手段(如限制观察空间)会损害模型整合复杂信息的关键优势[20][21] 真实数据不可替代性 - 替代数据仅在特定假设场景有效,无法像真实数据那样揭示世界运行机制[33][34] - 机器人基础模型要具备物理世界泛化能力,必须依赖真实世界数据[36] - 替代数据应定位为辅助知识来源,而非主要训练数据[37][38] 通用AI研发启示 - "叉勺"式方案(如混合系统、人工约束)虽能降低数据需求,但会成为性能瓶颈[41][43] - 人工设计的归纳偏置会限制自主学习系统的扩展潜力[42][44] - 当前替代数据方案使机器人学习人类解决方式,而非发展自主策略[26][27]