替代数据

搜索文档
Jinqiu Select | Physical Intelligence 联创:AI训练的真实数据不可替代
锦秋集· 2025-07-22 23:04
Physical Intelligence 联合创始人,加州大学伯克利分校机器人深度学习领域领军人物Sergey Levine最近发表 了一篇深度长文,认为过度依赖替代数据源会严重限制模型的最终能力,真正的突破必须建立在真实数据基础 之上。 Levine教授以"勺叉"(spork)这个巧妙的比喻,剖析了当前AI研究——尤其是机器人AI研究中的一个关键困 境:面对高昂的真实数据收集成本,研究者们总想找到便宜的替代方案,比如用模拟器、人类视频或手持设备 来训练机器人。然而,这些看似聪明的"两全其美"方案,最终都像勺叉一样——想同时当勺子和叉子,结果两 样都做不好。 文章告诉我们,真正的技术突破需要真实数据的滋养 。任何试图绕过这一"苦涩真相"的捷径,都会在模型能 力上付出代价。 锦秋基金认为,这篇文章为正在权衡"快速迭代"与"长期竞争力"的AI创业者提供了一个值得深思的视角,因此 对这篇文章进行了编译 训练大模型真的很难,而且随着模型规模不断扩大、应用领域不断拓展,难度只增不减。LLM(大语言模 型)需要海量文本数据,VLM(视觉语言模型)需要文本和图像的配对数据,而机器人领域的VLA(视觉-语 言-动作)模型更 ...
关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章
机器之心· 2025-07-22 12:25
机器之心报道 机器之心编辑部 我们知道,训练大模型本就极具挑战,而随着模型规模的扩大与应用领域的拓展,难度也在不断增加,所需的数据更是海量。 大型语言模型(LLM)主要依赖大量文本数据,视觉语言模型(VLM)则需要同时包含文本与图像的数据,而在机器人领域,视觉 - 语言 - 行动模型(VLA)则 要求大量真实世界中机器人执行任务的数据。 目前而言,Agent 是我们走向通用人工智能(AGI)的重要过渡。训练 Agent 则需要带有行动标签的真实交互数据,而获取这类数据的成本远比从网页上获取文本 与图像的成本高昂得多。 因此,研究者一直在尝试寻找一种替代方案,来实现鱼和熊掌兼得的效果:既能够降低数据获取成本,又能够保证大模型训练成果,保持基础模型训练中常见的 大规模数据带来的优势。 加州大学伯克利分校副教授,Physical Intelligence 的联合创始人,强化学习领域大牛 Sergey Levine 为此撰写了一篇文章,分析了训练大模型的数据组合,但他却 认为,鱼和熊掌不可兼得,叉子和勺子组合成的「叉勺」确实很难在通用场景称得上好用。 替代数据 尽管在视觉感知和自然语言处理任务中,真实世界数据一直被视 ...