Workflow
替代数据
icon
搜索文档
新加坡媒体:美劳工统计局局长被解雇后,美政府数据真实性遭质疑
环球时报· 2025-09-01 07:02
新加坡亚洲新闻台 8 月 28 日文章,原题:如果我们不再相信美国经济数据会发生什么? 美国每月发布的 就业数据是衡量世界最大经济体健康状况最受关注的数据之一,金融市场走势可能会根据数据的表现而 剧烈波动。美国劳工部8月1日公布的非农业部门就业数据显著弱于市场预期,仅几小时后,美国总统特 朗普称这些数据是"假的",并下令解雇劳工部下属劳工统计局局长埃丽卡·麦肯塔弗。这是对独立的联 邦统计机构——劳工统计局的一次前所未有的冲击。要知道,该机构负责追踪就业、薪资和通胀数据, 而这些关键数据能够反映美国经济的真实状况。 而就在上周,特朗普对美国经济机构发起了进一步攻击。他在社交平台上发文称,他已解雇美国央行 ——美联储的理事莉萨·库克。对此,库克回应称,特朗普无权解雇她,她将继续履职。这一系列事件 引发了关键问题:在特朗普对数据和相关机构发起"战争"的背景下,我们还能信任美国的经济数据吗? 机构独立性遭侵蚀 在解雇麦肯塔弗之后,特朗普提名了他的忠实拥护者——保守派智库传统基金会的经济学家E.J.安东 尼,此人曾提出,劳工统计局应暂停发布就业数据。就业数据作为观察美国经济的核心指标之一,能直 观反映每月新增或流失的就 ...
Jinqiu Select | Physical Intelligence 联创:AI训练的真实数据不可替代
锦秋集· 2025-07-22 23:04
核心观点 - 过度依赖替代数据源会严重限制AI模型的最终能力 真正的技术突破必须建立在真实数据基础之上 [1] - 当前AI研究面临"勺叉困境":试图用模拟器 人类视频或手持设备等廉价替代方案训练机器人 结果导致模型在真实场景中表现不佳 [1][3] - 机器学习的铁律是训练数据必须与测试条件相匹配 替代数据无法完全替代真实数据在物理世界中的实践 [10] 权宜之计的替代方案 - **模拟训练**:通过sim-to-real方法在模拟环境中训练机器人 但最佳模拟往往不是精确复现现实 而是编码机器人需要应对的各种变化 [3] - **人类视频学习**:需定义人机对应关系 但需弥合人类动作与机器人动作在动力学和外观上的差异 [3] - **手持夹爪设备**:让人们使用模仿机器人夹爪的设备收集数据 但仍受限于设备的工作空间和运动学差异 [3] 替代方案的局限性 - 替代数据将模型限制在三个条件的交集中:系统有效行为 能用替代方法实现的行为 不会暴露领域差异的行为 [4] - 模型越强大 越能区分替代数据与真实数据 导致交集缩小 任何扩大交集的尝试都会削弱模型能力 [6] - 替代数据优化针对特定场景 无法保证在新场景下的匹配度 模型的泛化能力反而成为推广到新场景时的累赘 [7] 真实数据的重要性 - 构建机器人基础模型必须依赖真实数据 才能实现像LLM和VLM在虚拟世界中的广泛泛化能力 [11] - 替代数据应作为辅助知识源 用于了解"世界可能发生什么" 而非"智能体该怎么做"的直接指令 [12] - 在大量真实机器人经验基础上 加入人类数据或模拟数据等多样化来源 比完全回避真实数据更有效 [11] 勺叉现象的普遍性 - "勺叉"现象不仅存在于数据替代方案 还包括混合系统 手工约束学习系统等方法 都试图用人工设计应对训练不充分问题 [13] - 手工设计的归纳偏置会成为性能瓶颈 违背机器学习通过数据驱动获取能力的核心优势 [13]
关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章
机器之心· 2025-07-22 12:25
大模型训练数据挑战 - 训练大模型难度随规模扩大和应用领域拓展而增加,需要海量数据[2] - 不同类型模型对数据需求差异显著:LLM依赖文本、VLM需图文结合、VLA要求真实机器人行动数据[3] - Agent训练需带行动标签的真实交互数据,成本远高于网页文本/图像采集[4] 替代数据方案探索 - 研究者尝试通过仿真、人类视频、手持夹爪设备等低成本方案替代真实数据[8][10][12][13] - 仿真方案通过人为设计训练环境并引入随机变化提升鲁棒性,但高度依赖预设条件[11] - 人类视频方案需建立人体-机器人动作映射,受限于动力学差异和预设策略[12] 替代数据局限性 - 所有替代方案本质是妥协,会削弱模型本应具备的泛化能力[14] - 模型能力越强,越容易识别替代数据与真实领域差异,导致有效策略空间缩小[19][23] - 信息隐藏手段(如限制观察空间)会损害模型整合复杂信息的关键优势[20][21] 真实数据不可替代性 - 替代数据仅在特定假设场景有效,无法像真实数据那样揭示世界运行机制[33][34] - 机器人基础模型要具备物理世界泛化能力,必须依赖真实世界数据[36] - 替代数据应定位为辅助知识来源,而非主要训练数据[37][38] 通用AI研发启示 - "叉勺"式方案(如混合系统、人工约束)虽能降低数据需求,但会成为性能瓶颈[41][43] - 人工设计的归纳偏置会限制自主学习系统的扩展潜力[42][44] - 当前替代数据方案使机器人学习人类解决方式,而非发展自主策略[26][27]