Workflow
多模态姿态模型
icon
搜索文档
前智源团队创业,联想、智谱AI投了一家人形机器人大模型公司|硬氪首发
36氪· 2025-06-14 09:34
融资与资金用途 - 公司完成数千万元融资,联想之星领投,智谱Z基金、燕缘创投、彬复资本跟投,势能资本担任独家财务顾问 [1] - 资金将用于加大核心技术研发投入,加速现有模型迭代与产业化验证,以持续提升技术壁垒与产品竞争力 [1] 公司背景与团队 - 公司成立于2025年1月,专注人形机器人通用大模型的研发与应用 [1] - 创始人卢宗青是北京大学计算机学院长聘副教授,曾任智源研究院多模态交互研究中心负责人,负责过首个国家自然科学基金委原创探索计划通用智能体项目 [1] - 多位核心成员来自智源研究院,在强化学习、计算机视觉、机器人控制和多模态等领域有丰富的技术研发积累和应用落地经验 [1] 行业挑战与技术瓶颈 - 数据规模与泛化能力是制约具身大脑性能提升的核心矛盾 [1] - 具身智能机器人依赖海量且多样化的数据进行深度训练,但数据采集面临技术、资源等多重门槛,存储成本随数据量激增而迅速攀升 [1] - 现有模型面对显著差异的场景时表现欠佳,难以将所学知识有效迁移至新情境 [2] - 如何在有限数据规模下提升泛化能力成为具身大脑突破性能瓶颈的关键挑战 [2] 技术架构与创新 - 公司将通用大模型系统分为具身多模态大语言模型、多模态姿态大模型和运动模型三层,并搭建了自学习具身智能体框架 [4] - 预训练数据来自互联网端的人类运动和手部操作视频,突破了传统方案对机器人真机数据的强依赖,实现从人类行为示范到机器人动作生成的跨模态迁移 [4] - 提出多模态姿态模型,通过互联网视频资源学习丰富且多元的动作样本,实现具有泛化性的端到端运动操作 [4] - 自主研发Video Tokenizer技术,精准捕捉动作的时序逻辑和空间特征,理解物理世界和人类行为 [5] - 提出Retriever-Actor-Critic框架,通过RAG与强化学习的协同应用,提升模型响应准确性与用户体验,形成数据收集-模型优化-效果反馈的闭环 [5] - 基于互联网视频预训练通用动作模型,再通过后期适配训练实现对不同机器人本体及场景的迁移,避免因硬件迭代导致的数据浪费 [7] 商业化进展与投资方观点 - 公司正同头部机器人厂商推进场景验证合作,以加快具身智能在更多领域的应用落地 [7] - 联想之星合伙人高天垚认为公司技术路线解决了训练数据来源有限的问题,具备全栈技术能力,在任务与环境泛化性、跨本体等问题上有强有力的竞争力 [8] - 智谱Z基金合伙人王璞表示公司实现了跨平台动作迁移的技术闭环,突破了传统方法的局限,为机器人走进千家万户铺平了道路 [9]