对话自变量王潜:错过图灵奖,要做具身界的 OpenAI
晚点LatePost·2026-01-19 10:52

公司创始人背景与技术自信 - 创始人王潜拥有跨学科背景,本科清华电子工程系,研究生生物医学系,博士在南加大攻读机器人学习,第一份工作是创建量化基金,属于非典型的具身智能创业人[4] - 王潜自2009年开始从事深度学习,是国内最早的一波研究者,并在2014年发表了关于注意力机制的论文,是当时最早的三篇相关论文之一,其架构被认为非常接近后来的Transformer,因此自认“错过了一个图灵奖级别的工作”[6][7][8][9] - 其技术自信源于早期经历,并得到了部分投资人的认可,美团龙珠在持续跟踪一年后成为公司重要股东,公司于1月12日宣布完成10亿元A++轮融资,据信领投方为字节跳动[5] 创业动机与行业判断 - 创立公司的直接契机是2021年GPT-3的出现,其展现的少样本学习能力被视为巨大的范式转移和解决机器人数据需求指数爆炸问题的“银弹”[16][17] - 此前,王潜认为若不出现根本性变化,机器人可能需要三十到五十年才能做出来,因此在2018-19年AI领域停滞期选择离开学术界从事量化投资[13][14][15] - 创业的核心目标是进行从0到1的原始创新,成为世界第一名,想做像OpenAI那样的公司,而非快速跟进者[5][47] 选择中国市场的原因与优劣分析 - 选择在中国创业的主要原因是美国硬件生态已“崩溃”,体现在供应链(维修周期以月计 vs 国内以天计)、风险投资(硅谷无正经财投机构投硬件)和人才流动(优秀硬件工程师集中在苹果和Meta)等方面[20] - 中国的劣势在于融资比美国难,但优势在于数据成本比美国低一个数量级,综合算下来中美条件基本持平,且成本优势是持续的[21] - 人力资源方面,中美AI人才储备已无差距,大家都是“大学同班同学”,且国内已证明能做出世界一流的事情[22][51] 技术路线:坚定选择端到端具身基础模型 - 公司自2023年底成立便坚信端到端路线,反对分层模型或专用模型,认为专用模型不可能成功,必须做基础模型[26] - 分层模型的弱点在于错误会级联放大,且该路线80年来未有突破,而端到端模型可以通过最终结果反向修正初始动作,且无需完美还原[27][29] - 端到端思路并非新生事物,2018年机器首次实现通用抓取使用的就是端到端深度强化学习[29] 数据、算力与模型训练的核心观点 - 影响模型性能提升的主要瓶颈是数据质量,而非算力,当前80%的工作重心在数据上[30] - 必须使用高质量的真实物理环境数据,仿真数据不work,因为物理世界存在随机性和难以模拟的特性(如非线性摩擦),英伟达也已转向融合真实数据[14][32][33] - 具身基础模型比纯多模态模型更容易训练,因为动作连续性提供了额外的信息,未来最好的多模态模型将是具身模型[36] - 在同样能力条件下,多模态模型比语言模型小一到两个数量级,因此具身领域暂时没有算力卡脖子的问题[35] 硬件策略:AI定义硬件 - 公司坚持“AI是第一性的,硬件是第二性的”原则,认为应先由AI定义硬件,而非先做完美硬件再适配AI[43] - 在2025年1月才开始大规模招聘硬件人员,但发现自己做硬件后,许多AI问题反而更容易解决,例如可以定义更适合数据采集和推理的机械臂[43] - 灵巧手方面,公司已做出20自由度的版本,但认为其更多是情绪价值,大部分场景夹爪已足够用,公司开发灵巧手主要是为了辅助模型训练[44][45][46] - 机器人采用轮式而非双足,主要出于安全性、成本和实用性的考量,认为在室内场景中腿的用处不足以抵消其劣势[46] 融资、团队与竞争格局 - 早期融资困难,因投资人质疑其技术独特性,但目前已获阿里和字节跳动投资,成为字节唯一投资的具身智能公司[47][48] - 团队气质偏向理想主义,注重技术本质,招聘更倾向于有大模型背景的应届生或从业者,因为行业几乎无人有经验[51][52] - 认为自动驾驶公司转型做具身智能存在理解滞后、技术核心不同(缺乏物理接触)和思维方式差异等障碍[53] - 大模型公司(空军)与需要高度协同的硬件团队(海军)基因不对付,原生具身智能团队具备技术壁垒[54] - 公司算法与硬件团队协作水平自评为8分(满分10分)[55] 商业化展望与行业判断 - 认为机器人行业此前出货报告(如全球1.3万台)参考意义不大,多为提供情绪价值的产品,尚不能真正干活[56] - 判断2026年将成为商业化元年,技术已达到阈值,可以通过少样本学习在单点产品上部署,并实现正投资回报率[57][58] - 商业化落地场景包括家务(打扫、收纳)和工业领域的单点垂直场景(如打螺丝)[58] - 认为国内同行在商业化落地方面明显比海外公司(如1X、Figure)差一点,而公司自身做得更好[60] - 将具身智能公司分为三类:以AI为核心的(如自变量)、以控制论为核心的制造业逻辑公司(如宇树)、以及资源整合型公司[61][62] - 认为行业不存在泡沫,与自动驾驶等大赛道相比,具身智能在资源投入和融资金额上仍是一个太小的赛道[64] - 长期看好中国优势,若能在从0到1阶段不落后,从1到100阶段中国将更具优势[64] - 自信公司在技术上是初创公司中的第一名,且是全世界唯一以大模型团队为核心构建的具身智能公司[65]