Workflow
Jinqiu Select | 机器人创业的规模化之路:Physical Intelligence的通用模型实践
锦秋集·2025-07-24 18:19

通用机器人模型的核心观点 - 通用模型比专用模型更有效、更易用 能实现"一次训练 处处部署" 解决机器人行业规模化困境 [1] - 通过高质量、多样化真实机器人数据验证 仅用2 4%多样化环境数据即可让机器人在陌生环境中工作 [1][6] - 借鉴NLP领域"预训练-微调"策略 使机器人处理未见过的V领衫和纽扣衬衫 折叠衣物成功率从0%提升至可操作水平 [2][7][8] - 技术架构调整如"停止梯度"使指令遵循率从20%提升至80% [2][11] - 利用视觉语言模型生成合成指令 低成本实现复杂指令理解 如"做素食三明治但不要泡菜" [2][14] - 跨平台验证成功 同一模型通过数据微调即可控制新机器人制作咖啡 证明通用部署可行性 [2][10] 行业现状与公司愿景 - 当前机器人领域需为每个应用定制开发硬件/软件 导致规模化困难 [4] - 公司目标开发通用目的模型 使任何机器人在任何环境执行任何任务 类比语言领域基础模型 [5] - 工业自动化数据缺乏多样性 YouTube数据存在人机差异 需通过远程操作收集真实机器人数据 [6] 关键技术突破 - 叠衣服案例:1亿参数模型升级至30亿参数视觉语言模型 折叠时间从20分钟缩短至9分钟 [7][9] - 预训练-微调策略使模型处理未见任务 如清理桌面/研磨咖啡豆/组装纸箱等 [10] - 在100个独特房间收集数据 占预训练数据2 4% 实现在陌生Airbnb中执行任务 [11][12] - 分层模型处理开放式指令 通过合成数据训练理解约束条件(如"不要泡菜")和即时纠正 [14] 数据策略与算法创新 - 高质量数据核心要素:策略一致性、高效性、可靠性 强化学习在后训练中关键作用 [16] - 真实世界数据不可替代 合成数据在评估和强化学习生成经验数据方面有价值 [20] - Transformer架构通过动作分词(tokenize)统一处理视觉、语言、动作信息 [22] 商业化路径 - 家庭应用为起点 扩展至工业场景(如组装纸箱) 激发投资界热情 [18] - 基础设施需求:机器人端需实时推理系统 训练端需多模态数据处理能力 [19]