Workflow
视觉语言模型(VLM)
icon
搜索文档
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
量子位· 2025-03-22 15:49
文章核心观点 - 提出MetaSpatial框架,将基于规则奖励的强化微调范式迁移至视觉语言模型的空间布局场景,提升模型空间推理与布局生成质量,实验验证其有效性与通用性,可应用于多种现实场景 [2][3][26] 现有方法问题 - 现有视觉语言模型在三维空间理解任务中缺乏对三维空间结构的真实建模,难以满足物理约束与功能合理性 [1] - 多智能体交互方法计算成本高,易陷入死锁无法收敛至有效解 [1] - 监督微调方法受空间任务限制,无法全面覆盖合理解空间,限制模型泛化能力与生成多样性 [1] MetaSpatial框架 核心问题与特性 - 提出是否可通过规则驱动的强化学习策略为视觉语言模型注入空间推理能力的问题 [2] - 三维布局任务具备强化学习适用特性,强化学习适用于缺乏唯一标准答案、解空间复杂多样的任务 [2] 框架内容 - 首次将基于规则奖励的强化微调策略迁移至视觉语言模型的空间布局场景,构建可程序化评估的奖励函数,引入多轮布局refinement机制 [3] 输入与输出形式 - 输入包括场景图像或房间结构图、房间几何尺寸信息、用户偏好描述、需要布局的目标物体列表 [6][7][8] - 输出包括语言化的推理过程和结构化布局JSON [13] 奖励函数与惩罚机制设计 - 构建三级奖励信号,从结构合法性、物理合理性和主观偏好三个维度评价模型输出,最终奖励为三者加权组合 [12][17] Trajectory生成与多轮布局优化 - 训练阶段采用multi - turn rollout策略,允许模型对布局结果进行多轮refinement,提高布局能力并提供高质量决策路径 [19] 策略优化 - 引入Group Relative Policy Optimization,利用同一输入样本生成的多条trajectory作为一个group进行比较性学习,在样本极少情况下稳定学得空间决策能力 [21][22] 实验结果 - Qwen2.5的7B和3B模型从MetaSpatial框架受益,7B模型性能提升更显著,3B模型在输出格式生成方面存在困难 [23] - 强化学习训练后,模型生成的布局更结构化、逼真,语义更连贯,表现出更强的空间感知等能力 [29] 总结 - 提出MetaSpatial框架,使视觉语言模型直接生成结构合理的三维场景 [30] - 引入多轮布局优化机制与GRPO策略,让模型学习更具泛化性与适应性的空间推理能力 [30] - 构建三重奖励体系,为强化学习提供自适应、可扩展的奖励信号 [30] - 实验证明MetaSpatial能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量 [30]
北大人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能
量子位· 2025-03-18 19:53
文章核心观点 北京大学卢宗青团队推出首个集运动、导航、灵巧操作于一体的人形机器人通用智能体Being - 0,其提出模块化分层端到端架构,将具身大模型与人形机器人能力集成,仅需互联网视频和少量真机数据,在真实环境验证了高效性和可靠性,开启人形机器人研究和应用新篇章 [1][5][17] 让人形机器人走入现实的难题 - 难题一:让机器人“想”得对,智能体需从人类海量数据中学习通用、可泛化的任务理解和推理能力 [6] - 难题二:让机器人“做”得准,智能体要能控制机器人本体,在复杂环境实现可靠技能规划与衔接,稳定进行运动导航、灵巧操作 [6] Being - 0的架构组成 - 上层基础大模型(FM):负责任务规划、推理和失败检测,学习通用任务理解 [7] - 中层视觉语言模型(VLM):结合语言和第一人称视觉输入,理解具身场景,将基础大模型任务规划转换为可执行技能,解决具身推理不足 [8] - 底层模块化技能库:运动技能让机器人自主导航;操作技能包含抓取等原子技能,能用少量真机数据学习新技能 [8] Being - 0的数据训练优势 - VLM模型模块利用低成本、海量第一人称视频数据学习,成为衔接基础大模型和底层技能库的桥梁 [8] - 模块化技能库只需少量遥操作数据训练短程原子技能,每个技能约100条轨迹,显著降低数据需求 [10] Being - 0的操作与部署特点 - 采用全尺寸人形机器人,搭载灵巧手和主动视觉,实现人类级灵活操作,主动调整头部视角提高环境感知 [11][12] - 将VLM和底层技能库部署于机器人端,实现高效实时任务响应,最小化对网络和外部算力依赖 [13] Being - 0的任务执行效果 - 在多项真实世界长程任务中表现卓越,能在办公生活场景实现自主搬运、抓取、制作咖啡等能力 [14] - VLM设计提供高效、高成功率的技能规划和导航能力,长程任务成功率远超基线方法 [15] - 主动视觉设计增强任务完成度,使导航、操作更灵活高效 [16] Being团队情况 - 由来自北京大学、智源研究院以及智在无界的研究人员组成 [17] - 正在持续迭代人形机器人具身大模型、全身运动控制、灵巧操作等能力,让机器人智能体涌现更强自主能力和泛化性 [17]