公司核心观点 - Generalist是机器人领域中极少数具备长期竞争潜力的公司,其核心优势集中在数据规模、团队能力与清晰的技术发展路径上[2] 为什么看好Generalist - 数据规模优势:公司积累了27万小时的真机训练数据,可能是全球首个在数据规模上达到GPT-1量级的机器人团队,领先其他团队6-12个月时间窗口[2][4][6] - 数据采集挑战:复刻27万小时数据不仅需要资金,更需要时间,仅制造专用采集硬件就需要4-6个月,需要1000个人不停采集大半年甚至小一年[6] - 团队技术实力:三位联合创始人兼具MIT、Princeton顶尖学术背景与Google DeepMind、Boston Dynamics的业界研发经历,是PaLM-E、RT-2等具身智能里程碑项目的主要贡献者[2][6] - 工程扩展经验:工程负责人Evan Morikawa曾是OpenAI工程负责人,领导了ChatGPT、GPT-4等产品的工程团队,拥有从0到1再到大规模扩展的丰富经验[7] - 模型灵巧性展示:公司通过一系列demo展示了模型出色的灵巧性,包括2025年6月实现的高频动态抛掷,9月组装乐高任务中攻克的亚毫米级精度,以及GEN-0在工具使用、柔性物体处理和高精度装配方面的能力[3][7] - 底层动作生成:模型具备Low-level动作生成能力,在端到端控制下能输出丝滑且精准的操作策略,让机器人在复杂环境中表现出近似生物本能的灵巧度[8] 机器人领域的Scaling Law - 行业验证进展:2024年,MIT和慕尼黑工业大学的研究人员通过对327篇论文分析后认为机器人基础模型存在scaling laws[11] - 公司宣称突破:去年11月,Generalist声称首次在机器人领域验证了类似语言模型的scaling law,即随着预训练数据和计算量的增加,下游任务性能呈现可预测的幂律提升[9][13] - 参数量相变:公司研究发现,当模型参数扩大到7B以上时会发生相变,大模型能够持续吸收数据,Training Loss会持续下降,只有跨越这个参数门槛,模型才能真正通过预训练获得通用能力[14] - 数据量幂律关系:在足够的模型规模下,预训练数据的规模与下游任务的最终表现之间存在显著的幂律关系[16] - 实践验证:通过盲测A/B实验证实,增加预训练数据能提高任务成功率,即使在下游数据仅有5.6小时的情况下增益也十分显著;当全量预训练数据与充足的下游数据(550+小时)结合时,任务成功率峰值高达99%[18][19] - 数据质量重要性:团队发现数据质量和多样性比数据量本身更为重要,不同来源的预训练数据组合会训练出具有不同特征的模型[23] Generalist的技术细节与模型 - 公司关注点:公司最关注机器人的灵巧性,认为这需要在数据、模型和硬件层面都有突破[29] - GEN-0模型能力:2025年11月发布的GEN-0基础模型展示了在单一神经网络流中完成长序列任务的能力,包括工具使用、柔性物体处理以及高精度装配,并已成功部署在6-DoF机械臂、7-DoF机械臂以及16+ DoF的半人形机器人上[30] - 模型架构创新:GEN-0使用称为“谐波推理”的机制,摒弃了传统“慢思考”与“快反应”分离的架构,将感知Token和动作Token融合在同一个Transformer流中处理,能以100Hz以上的频率生成连续、流畅且智能的动作[52] - 早期Demo亮点:2025年6月的demo展示了分拣紧固件、折叠包装、回收螺丝、拆解分类抛掷乐高等任务,所有机器人完全自主,由深度神经网络实时控制[34] - 乐高构建任务:9月展示的乐高积木模仿构建任务被第三方归类为通用机器人的最高等级(Level 4),机器人通过观察人类搭建的结构后,能够从零开始复制出完全一样的结构,具备亚毫米级精度[34][35] - 泛化能力估算:在仅使用4种颜色的2x4乐高积木搭建3层结构的限制条件下,存在约99840种可能的组合,表明机器人并非死记硬背,而是真正具备了应对多样化结构的能力[37] 数据、硬件与处理能力 - 数据总量与增速:GEN-0在预训练上使用了超过27万小时的真实世界机器人操作数据,目前以每周1万小时的速度新增[38] - 数据采集方法:公司使用UMI进行数据采集,通过在全球范围内部署数千个数据收集设备和机器人实现并行化、多样化采集,根据推测,方法包括让人类佩戴装有摄像头的手套装置来收集自我中心数据[40][42] - 数据合作与评估:公司与多家data foundry合作在不同环境中采集多样化数据,并通过持续的A/B测试评估合作伙伴的数据质量,据此调整数据采购比例[43] - 数据处理能力:公司构建了专用的硬件和处理管线,每天能处理相当于6.85年的人类操作经验数据[44] - 数据成本估算:有评论认为,即使在中国,要收集到训练GEN-0的数据也要花费200-300万美元[47] - 行业支持:2025年9月,Generalist AI入选由MassRobotics联合AWS和NVIDIA发起的Physical AI Fellowship项目首批名单,可获得包括20万美元AWS云服务额度在内的技术支持[48] 团队背景 - CEO Pete Florence:曾任Google DeepMind高级研究科学家,博士毕业于MIT,主导或参与了PaLM-E和RT-2等项目,DeepMind发布的Gemini Robotics论文4次引用了其研究成果[54] - CTO Andrew Barry:曾任Boston Dynamics资深机器人学家,博士毕业于MIT,参与了Spot机器狗机械臂项目的研发,与CEO Pete Florence同为Russ Tedrake的学生,并有长期学术合作与共同创业经历[54][55] - 首席科学家 Andy Zeng:曾任Google DeepMind研究科学家,博士毕业于普林斯顿大学,在机器人抓取和视觉感知领域多次获奖,与Pete Florence合作密切,共同发表超过十七篇论文[55] 竞争格局 - 行业象限划分:机器人领域可按场景复杂度和交付形态划分,Generalist位于第二象限,即“通用具身大脑”,专注于解决最难的“大脑”问题以赋能任何硬件[59][61] - 核心护城河:公司最大的护城河是大量端到端的真机数据和极强的团队技术实力[62] - 与Physical Intelligence对比:PI在2025年11月完成6亿美元融资,估值达56亿美元,融资进度更领先;PI采用Flow Matching技术可直接输出连续平滑的电机信号,并拥有Recap算法赋予模型自我进化能力,而Generalist目前缺乏这种部署后“越用越强”机制;PI团队由Chelsea Finn、Sergey Levine等多位学术界泰斗组成全明星阵容,团队构建更全面,而Generalist团队更加精炼[62][63][64] - 与Google对比:Google通过Open X-Embodiment联盟采取开放生态策略,拥有大量的TPU算力和资金支持,而Generalist作为创业公司缺乏同等的生态掌控力,需在数据质量和灵巧操作上建立高壁垒,并关注高昂数据采集成本带来的资金消耗问题[62][64][65] - 与Sunday Robotics对比:Sunday专注于家庭场景,采用低成本手套采集数据,已明确表示将在2026年晚些时候启动“Founding Family Beta”计划,把约50个Memo机器人放到真实家庭中测试,商业化落地更快;而Generalist凭借高质量数据和精密控制能完成更精密的装配任务,但Sunday可能因缺乏力反馈信息而暂时聚焦容错率较高的家务[62][65]
凭借 27 万小时真机数据,Generalist 可能是最接近“GPT-1 时刻”的顶级机器人团队
海外独角兽·2026-01-29 20:06