核心观点 - 过度依赖替代数据源会严重限制AI模型的最终能力 真正的技术突破必须建立在真实数据基础之上 [1] - 当前AI研究面临"勺叉困境":试图用模拟器 人类视频或手持设备等廉价替代方案训练机器人 结果导致模型在真实场景中表现不佳 [1][3] - 机器学习的铁律是训练数据必须与测试条件相匹配 替代数据无法完全替代真实数据在物理世界中的实践 [10] 权宜之计的替代方案 - 模拟训练:通过sim-to-real方法在模拟环境中训练机器人 但最佳模拟往往不是精确复现现实 而是编码机器人需要应对的各种变化 [3] - 人类视频学习:需定义人机对应关系 但需弥合人类动作与机器人动作在动力学和外观上的差异 [3] - 手持夹爪设备:让人们使用模仿机器人夹爪的设备收集数据 但仍受限于设备的工作空间和运动学差异 [3] 替代方案的局限性 - 替代数据将模型限制在三个条件的交集中:系统有效行为 能用替代方法实现的行为 不会暴露领域差异的行为 [4] - 模型越强大 越能区分替代数据与真实数据 导致交集缩小 任何扩大交集的尝试都会削弱模型能力 [6] - 替代数据优化针对特定场景 无法保证在新场景下的匹配度 模型的泛化能力反而成为推广到新场景时的累赘 [7] 真实数据的重要性 - 构建机器人基础模型必须依赖真实数据 才能实现像LLM和VLM在虚拟世界中的广泛泛化能力 [11] - 替代数据应作为辅助知识源 用于了解"世界可能发生什么" 而非"智能体该怎么做"的直接指令 [12] - 在大量真实机器人经验基础上 加入人类数据或模拟数据等多样化来源 比完全回避真实数据更有效 [11] 勺叉现象的普遍性 - "勺叉"现象不仅存在于数据替代方案 还包括混合系统 手工约束学习系统等方法 都试图用人工设计应对训练不充分问题 [13] - 手工设计的归纳偏置会成为性能瓶颈 违背机器学习通过数据驱动获取能力的核心优势 [13]
Jinqiu Select | Physical Intelligence 联创:AI训练的真实数据不可替代
锦秋集·2025-07-22 23:04