Workflow
人形机器人智能体
icon
搜索文档
北大人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能
量子位· 2025-03-18 19:53
文章核心观点 北京大学卢宗青团队推出首个集运动、导航、灵巧操作于一体的人形机器人通用智能体Being - 0,其提出模块化分层端到端架构,将具身大模型与人形机器人能力集成,仅需互联网视频和少量真机数据,在真实环境验证了高效性和可靠性,开启人形机器人研究和应用新篇章 [1][5][17] 让人形机器人走入现实的难题 - 难题一:让机器人“想”得对,智能体需从人类海量数据中学习通用、可泛化的任务理解和推理能力 [6] - 难题二:让机器人“做”得准,智能体要能控制机器人本体,在复杂环境实现可靠技能规划与衔接,稳定进行运动导航、灵巧操作 [6] Being - 0的架构组成 - 上层基础大模型(FM):负责任务规划、推理和失败检测,学习通用任务理解 [7] - 中层视觉语言模型(VLM):结合语言和第一人称视觉输入,理解具身场景,将基础大模型任务规划转换为可执行技能,解决具身推理不足 [8] - 底层模块化技能库:运动技能让机器人自主导航;操作技能包含抓取等原子技能,能用少量真机数据学习新技能 [8] Being - 0的数据训练优势 - VLM模型模块利用低成本、海量第一人称视频数据学习,成为衔接基础大模型和底层技能库的桥梁 [8] - 模块化技能库只需少量遥操作数据训练短程原子技能,每个技能约100条轨迹,显著降低数据需求 [10] Being - 0的操作与部署特点 - 采用全尺寸人形机器人,搭载灵巧手和主动视觉,实现人类级灵活操作,主动调整头部视角提高环境感知 [11][12] - 将VLM和底层技能库部署于机器人端,实现高效实时任务响应,最小化对网络和外部算力依赖 [13] Being - 0的任务执行效果 - 在多项真实世界长程任务中表现卓越,能在办公生活场景实现自主搬运、抓取、制作咖啡等能力 [14] - VLM设计提供高效、高成功率的技能规划和导航能力,长程任务成功率远超基线方法 [15] - 主动视觉设计增强任务完成度,使导航、操作更灵活高效 [16] Being团队情况 - 由来自北京大学、智源研究院以及智在无界的研究人员组成 [17] - 正在持续迭代人形机器人具身大模型、全身运动控制、灵巧操作等能力,让机器人智能体涌现更强自主能力和泛化性 [17]