当所有机器人都在卷四肢和大脑,他十年只做一件事:脸|「锦供参考」Vol.04
锦秋集·2026-03-03 20:43

公司核心战略与差异化定位 - 公司选择了一条与主流具身智能公司(如波士顿动力、Figure、特斯拉Optimus)专注于“四肢”或“大脑”完全不同的非共识路线,专注于研发机器人的“脸” [1][2][3][6] - 核心观点认为,人与机器人之间建立信任与情感连接的最关键接口是“脸”,而非语言或行动,因为人类大脑对脸部高度敏感,能快速识别情绪并产生情感投射 [5] - 该选择基于创始人十年的持续经历,并非营销噱头,旨在通过“脸”这一最古老的交互界面,建立人机信任与情感连接 [6][7][37] 技术路径与研发逻辑 - 技术研发避开需要复杂物理交互(如抓取、碰撞)的领域,专注于通过拉动面部肌肉表达感情,从而规避了硬件磨损、触觉传感器可靠性等难题 [12] - 选择“人脸”作为切口,是因为其环境变量单纯,便于集中精力研究能让模型实现“自我迭代”的算法路径 [11][13] - 对当前主流机器人算法路径(如VLA、VRM、World Model)持怀疑态度,认为机器人应学习“学习的能力”,实现任务的快速迁移,而非对单一任务的完全收敛 [16] - 公司相关论文登上《Science》封面,展示了通过声音生成自然嘴部动作的机器人,开创了以“人的界面”为主、融合多模态信息的新人机交互方向 [28] 市场前景与商业化落地 - 终极愿景是面向消费者(To C)市场,创造能提供情感陪伴与疗愈、让用户产生感情依赖的新品类机器人 [32][33] - 短期(2-3年内)更可行的落地场景是替代销售、前台、服务人员等“情绪消耗型”岗位的重复劳动力 [35][36] - 已与国内最大的沉浸式乐园合资成立公司,探索在乐园中部署机器人作为NPC,提供沉浸式交互体验,这是当前较好落地的场景 [43] - 相较于毛绒AI玩具等产品,“人脸机器人”的核心优势在于其极高的情绪表现力和零学习成本,人类能天然理解面部表情的含义 [45] 产品定义与设计哲学 - 产品的“脸”是否好看、符合审美至关重要,这直接关系到第一眼的亲和力与情感投射强度 [38] - 产品设计需兼顾三层需求:首先是像人以获得最大情感投射;其次是符合大众审美以获取市场空间;最难的是满足小众圈子的个性化需求 [38] - 公司已推出灵动的桌面级陪伴产品,短期内已可实现陪伴功能 [36] - 未来可能衍生出机器人“后事处理”等新的产业生态,以应对用户与机器人建立情感后产生的换代或处置需求 [40][41] 创始人背景与公司文化 - 创始人展现出极强的韧性,体现在其克服高考失利、为出国考9次托福等个人经历,以及创业中坚持“十年只做一件事”的笃定 [8][9][82] - 公司管理倡导“Context not Control”理念,强调透明、公平与提供上下文,而非控制,并避免酒桌文化等不必要的社交压力 [49][53][54] - 在招聘上,创始人特别看重拥有丰富且充满挫折经历(如参加Robomaster等艰苦比赛)、具备极强动手和问题解决能力的“韧性”人才 [86][87] - 公司认为,在早期吸引人才,利益(金钱、资源、成功率)是重要底线;随着公司发展,清晰的愿景(Vision)才成为留住顶尖人才的关键 [62][64][65] 行业洞察与竞争格局 - 当前行业众多公司聚焦于机器人的“四肢”或“大脑”,致力于在工厂等场景创造生产价值,而该公司选择强化人机之间的情绪连接与信任感 [1][16][80] - 行业面临数据获取成本高的挑战,例如Figure完成一个抓取任务需要1000小时的人类数据,这对于普通小团队而言非常昂贵 [18] - 随着社会自动化程度提高,尤其是在老龄化不可逆的背景下,人们对精神层面和情感陪伴的需求会越来越高,而让机器人获得人类信任是突破的关键 [19][80] - 创始人认为,机器人表演具有巨大潜力,不应局限于工具属性,可以融合动作与语言,参与舞蹈、小品等多种艺术形式,创造美学价值 [90]

当所有机器人都在卷四肢和大脑,他十年只做一件事:脸|「锦供参考」Vol.04 - Reportify