机器人自我建模 - 财报，业绩电话会，研报，新闻

机器人自我建模

搜索文档

具身智能之心· 2026-01-16 08:33

研究背景与核心人物 - 研究核心人物为胡宇航博士（首形科技创始人），毕业于美国哥伦比亚大学，长期专注于机器人自主学习，致力于赋予机器人“自我模型”能力，研究成果发表于《Nature Machine Intelligence》、《Science Robotics》等顶级期刊 [1] 技术突破与核心观点 - 2026年1月15日，哥伦比亚大学工程学院在《Science Robotics》发表封面研究，展示了一台具备仿生面部结构的人形机器人，能通过深度学习实现与语音和歌曲同步的真实唇部运动 [3] - 研究认为，面部表情尤其是唇部的自然运动，是机器人能力中长期以来的“缺失环节”，对于需要面对面交流的场景至关重要 [27] - 该技术被视为跨越“恐怖谷”的关键一步，因为人类在面对面交流中近一半注意力集中在唇部，轻微的不自然面部表情会立刻引发不适 [5] - 经济学家预测，未来十年全球或将制造超过**十亿台**人形机器人进入生活场景，而它们几乎不可能都没有脸 [27] 机器人硬件设计 - 研究团队打造了一张高度仿生的机器人面孔，在一层柔性硅胶皮肤之下，隐藏着**20余个微型电机**，能够快速、安静且协同地驱动唇部形变 [8] - 硬件设计包括扬声器、麦克风、高清摄像模块，以及用于固定柔软硅胶面皮的磁吸式快拆连接器，可实现面皮的精准定位和便捷拆卸维护 [10] 核心技术方法 - 机器人通过观察自己面部在不同电机驱动下的变化，构建Facial Action Transformer模型，学会控制自己的脸，这一过程被称为“视觉—动作”的自监督学习或机器人自我建模 [12] - 机器人通过观看合成的机器人视频（通过Wav2Lip技术）在不同语音语料（由TTS和ChatGPT生成）下的真实唇部变化，学习声音与唇部运动之间的对应关系 [17] - 最终，机器人能将收到的声音信号直接转化为连续、自然的唇部运动，无需理解语义即可“对得上口型” [17] 性能表现与能力 - 机器人展示了再现关键英语音标的能力，例如爆破音（/p/和/b/）、双唇音（/m/）以及圆唇元音（/u/和/o/） [15] - 研究测试了机器人在多种语言、不同语音环境甚至歌曲中的表现，结果显示即使在复杂语音节奏下，机器人也能完成连贯的唇部同步 [21] - 量化表现显示，所有非英语语言的唇语同步误差均保持在英语误差范围内，显示出稳健的跨语言泛化能力 [25] - 研究者坦言，像“B”这类需要完全闭唇的音，以及“W”这类涉及明显撮唇的发音，仍然存在挑战，但强调这是一种可以随着学习持续进化的能力 [25] 应用前景与意义 - 随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域，一张温暖、自然、可信的“脸”将不再是加分项，而是入场券 [27] - 当唇部同步能力与对话型大模型结合时，机器人与人类之间的连接将发生质变，因为大量情感信息并不在语言本身，而在面部和身体语言中 [29] - 这项研究不仅是一次学术突破，也展示了中国学者在国际人形机器人领域具备独特的创新能力 [29]