多模态模型 - 财报，业绩电话会，研报，新闻

多模态模型

搜索文档

锦秋集· 2026-03-03 20:43

公司核心战略与差异化定位 - 公司选择了一条与主流具身智能公司（如波士顿动力、Figure、特斯拉Optimus）专注于“四肢”或“大脑”完全不同的非共识路线，专注于研发机器人的“脸” [1][2][3][6] - 核心观点认为，人与机器人之间建立信任与情感连接的最关键接口是“脸”，而非语言或行动，因为人类大脑对脸部高度敏感，能快速识别情绪并产生情感投射 [5] - 该选择基于创始人十年的持续经历，并非营销噱头，旨在通过“脸”这一最古老的交互界面，建立人机信任与情感连接 [6][7][37] 技术路径与研发逻辑 - 技术研发避开需要复杂物理交互（如抓取、碰撞）的领域，专注于通过拉动面部肌肉表达感情，从而规避了硬件磨损、触觉传感器可靠性等难题 [12] - 选择“人脸”作为切口，是因为其环境变量单纯，便于集中精力研究能让模型实现“自我迭代”的算法路径 [11][13] - 对当前主流机器人算法路径（如VLA、VRM、World Model）持怀疑态度，认为机器人应学习“学习的能力”，实现任务的快速迁移，而非对单一任务的完全收敛 [16] - 公司相关论文登上《Science》封面，展示了通过声音生成自然嘴部动作的机器人，开创了以“人的界面”为主、融合多模态信息的新人机交互方向 [28] 市场前景与商业化落地 - 终极愿景是面向消费者（To C）市场，创造能提供情感陪伴与疗愈、让用户产生感情依赖的新品类机器人 [32][33] - 短期（2-3年内）更可行的落地场景是替代销售、前台、服务人员等“情绪消耗型”岗位的重复劳动力 [35][36] - 已与国内最大的沉浸式乐园合资成立公司，探索在乐园中部署机器人作为NPC，提供沉浸式交互体验，这是当前较好落地的场景 [43] - 相较于毛绒AI玩具等产品，“人脸机器人”的核心优势在于其极高的情绪表现力和零学习成本，人类能天然理解面部表情的含义 [45] 产品定义与设计哲学 - 产品的“脸”是否好看、符合审美至关重要，这直接关系到第一眼的亲和力与情感投射强度 [38] - 产品设计需兼顾三层需求：首先是像人以获得最大情感投射；其次是符合大众审美以获取市场空间；最难的是满足小众圈子的个性化需求 [38] - 公司已推出灵动的桌面级陪伴产品，短期内已可实现陪伴功能 [36] - 未来可能衍生出机器人“后事处理”等新的产业生态，以应对用户与机器人建立情感后产生的换代或处置需求 [40][41] 创始人背景与公司文化 - 创始人展现出极强的韧性，体现在其克服高考失利、为出国考9次托福等个人经历，以及创业中坚持“十年只做一件事”的笃定 [8][9][82] - 公司管理倡导“Context not Control”理念，强调透明、公平与提供上下文，而非控制，并避免酒桌文化等不必要的社交压力 [49][53][54] - 在招聘上，创始人特别看重拥有丰富且充满挫折经历（如参加Robomaster等艰苦比赛）、具备极强动手和问题解决能力的“韧性”人才 [86][87] - 公司认为，在早期吸引人才，利益（金钱、资源、成功率）是重要底线；随着公司发展，清晰的愿景（Vision）才成为留住顶尖人才的关键 [62][64][65] 行业洞察与竞争格局 - 当前行业众多公司聚焦于机器人的“四肢”或“大脑”，致力于在工厂等场景创造生产价值，而该公司选择强化人机之间的情绪连接与信任感 [1][16][80] - 行业面临数据获取成本高的挑战，例如Figure完成一个抓取任务需要1000小时的人类数据，这对于普通小团队而言非常昂贵 [18] - 随着社会自动化程度提高，尤其是在老龄化不可逆的背景下，人们对精神层面和情感陪伴的需求会越来越高，而让机器人获得人类信任是突破的关键 [19][80] - 创始人认为，机器人表演具有巨大潜力，不应局限于工具属性，可以融合动作与语言，参与舞蹈、小品等多种艺术形式，创造美学价值 [90]