具身多模态大语言模型

搜索文档
又有“学院派”大佬入局具身智能赛道,已完成天使轮融资!
Robot猎场备忘录· 2025-06-17 00:02
公司融资与背景 - 北京智在无界科技有限公司完成数千万元天使轮融资,由联想之星领投,智谱Z基金、燕缘创投、彬复资本跟投,资金将用于核心技术研发和模型迭代[1] - 公司由北京大学卢宗青副教授于2025年1月21日创立,专注人形机器人通用大模型的研发与应用[1] - 卢宗青现任北京大学计算机学院长聘副教授、博导,曾在新加坡南洋理工大学获得博士学位,并在美国宾州州立大学从事博士后研究,主要研究强化学习、多模态大模型和通用智能体[2] 核心技术 - 公司通用大模型系统分为具身多模态大语言模型、多模态姿态大模型和运动模型三层,并搭建了自学习具身智能体框架[5] - 通过海量互联网第一人称视频和少量遥操作数据训练智能体,提出多模态姿态模型,利用互联网视频资源预训练通用动作模型,解决真机数据稀缺与场景泛化的矛盾[6] - 自主研发Video Tokenizer技术,强调时空环境的理解与推理能力,特别是针对第一人称视角视频内容的解析[11] - 提出Retriever-Actor-Critic框架,通过真实交互数据的RAG与强化学习协同应用,形成"数据收集-模型优化-效果反馈"的闭环[11] 产品进展 - 卢宗青团队联合智源研究院发布首个面向人形机器人的通用智能体Being-0,采用模块化的分层端到端架构,仅需互联网视频+少量真机数据即可实现复杂推理和长程任务[7][8] - 公司正与头部机器人厂商推进场景验证合作,加快具身智能在更多领域的应用落地[9] 行业对比 - 特斯拉Optimus采用类似训练路线,完全在虚拟环境中进行训练并实现"零样本转移",利用第一人称视角视频直接迁移学习成果[11][12] - 全球具身智能领域公司超过200家,主要分为专注具身智能大模型、人形机器人本体和两者同时涉及三类,智在无界目前专注具身智能大模型研发[15] - 软件算法是推动人形机器人功能提升和应用场景拓展的关键,具身智能大模型创企或具备强大AI能力的人形本体初创公司成为资本市场关注重点[16]