Workflow
VLM
icon
搜索文档
华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2· 2025-04-23 21:34
具身智能导航技术现状与分类 - 现有视觉语言导航(VLN)方法分为三类:基于大语言模型(LLM)的导航依赖自然语言描述但缺乏高维语义信息[4][5],基于价值地图的导航解决长时记忆遗忘但易产生次优解[5],基于视觉语言模型(VLM)的导航促进上下文感知但需权衡泛化性与实时性[5] - 主流方法面临四大核心挑战:复杂环境布局导致决策困难[6],未知环境自适应需理解人类指令[6],LLM语言表征丢失几何信息[6],VLM单一视角导致观测不完整[6] MEM2EGO框架创新设计 - 记忆模块采用三层架构:frontier地图标记未知/可通行区域边界[11][15],访问记录避免冗余检索[12],语义地标记忆存储全局坐标和场景描述(如"水槽旁有浴缸")[13] - 导航流程实现八步闭环:360°全景观测突破单一视角限制[14],候选点聚类优化路径规划[14],历史地标检索结合思维链提示实现多模态决策[20][21],动态更新语义记忆[23] 技术实现与微调策略 - 数据采集使用A*算法生成真实轨迹,通过贝塞尔曲线平滑处理[24],从5678个任务生成30352对VQA数据[26] - 模型微调采用Llama3 2-11B-Vision模型,3周期训练batch_size=128,学习率1e-5[26],GPT-4o生成地标描述增强语义理解[24] 实验性能验证 - 在HSSD数据集成功率(SR)达86 85%,超越基线PIVOT(78 4%)和VLFM(76 52%)[30],HSSD-Hard数据集SR提升12 75个百分点至76 47%[30] - 微调后Llama3 2-11B模型SPL达59 95%,优于原始版本(55 82%)和GPT-4o(57 88%)[31],消融实验显示移除语义记忆导致SR下降3 29%[34] 技术局限与发展方向 - 当前框架过度依赖VLM空间推理能力,文本化存储可能导致语义信息丢失[36] - 未来需探索多视角图像并行处理技术[36],突破单一视角的空间推理瓶颈
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
量子位· 2025-03-22 15:49
文章核心观点 - 提出MetaSpatial框架,将基于规则奖励的强化微调范式迁移至视觉语言模型的空间布局场景,提升模型空间推理与布局生成质量,实验验证其有效性与通用性,可应用于多种现实场景 [2][3][26] 现有方法问题 - 现有视觉语言模型在三维空间理解任务中缺乏对三维空间结构的真实建模,难以满足物理约束与功能合理性 [1] - 多智能体交互方法计算成本高,易陷入死锁无法收敛至有效解 [1] - 监督微调方法受空间任务限制,无法全面覆盖合理解空间,限制模型泛化能力与生成多样性 [1] MetaSpatial框架 核心问题与特性 - 提出是否可通过规则驱动的强化学习策略为视觉语言模型注入空间推理能力的问题 [2] - 三维布局任务具备强化学习适用特性,强化学习适用于缺乏唯一标准答案、解空间复杂多样的任务 [2] 框架内容 - 首次将基于规则奖励的强化微调策略迁移至视觉语言模型的空间布局场景,构建可程序化评估的奖励函数,引入多轮布局refinement机制 [3] 输入与输出形式 - 输入包括场景图像或房间结构图、房间几何尺寸信息、用户偏好描述、需要布局的目标物体列表 [6][7][8] - 输出包括语言化的推理过程和结构化布局JSON [13] 奖励函数与惩罚机制设计 - 构建三级奖励信号,从结构合法性、物理合理性和主观偏好三个维度评价模型输出,最终奖励为三者加权组合 [12][17] Trajectory生成与多轮布局优化 - 训练阶段采用multi - turn rollout策略,允许模型对布局结果进行多轮refinement,提高布局能力并提供高质量决策路径 [19] 策略优化 - 引入Group Relative Policy Optimization,利用同一输入样本生成的多条trajectory作为一个group进行比较性学习,在样本极少情况下稳定学得空间决策能力 [21][22] 实验结果 - Qwen2.5的7B和3B模型从MetaSpatial框架受益,7B模型性能提升更显著,3B模型在输出格式生成方面存在困难 [23] - 强化学习训练后,模型生成的布局更结构化、逼真,语义更连贯,表现出更强的空间感知等能力 [29] 总结 - 提出MetaSpatial框架,使视觉语言模型直接生成结构合理的三维场景 [30] - 引入多轮布局优化机制与GRPO策略,让模型学习更具泛化性与适应性的空间推理能力 [30] - 构建三重奖励体系,为强化学习提供自适应、可扩展的奖励信号 [30] - 实验证明MetaSpatial能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量 [30]
北大人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能
量子位· 2025-03-18 19:53
文章核心观点 北京大学卢宗青团队推出首个集运动、导航、灵巧操作于一体的人形机器人通用智能体Being - 0,其提出模块化分层端到端架构,将具身大模型与人形机器人能力集成,仅需互联网视频和少量真机数据,在真实环境验证了高效性和可靠性,开启人形机器人研究和应用新篇章 [1][5][17] 让人形机器人走入现实的难题 - 难题一:让机器人“想”得对,智能体需从人类海量数据中学习通用、可泛化的任务理解和推理能力 [6] - 难题二:让机器人“做”得准,智能体要能控制机器人本体,在复杂环境实现可靠技能规划与衔接,稳定进行运动导航、灵巧操作 [6] Being - 0的架构组成 - 上层基础大模型(FM):负责任务规划、推理和失败检测,学习通用任务理解 [7] - 中层视觉语言模型(VLM):结合语言和第一人称视觉输入,理解具身场景,将基础大模型任务规划转换为可执行技能,解决具身推理不足 [8] - 底层模块化技能库:运动技能让机器人自主导航;操作技能包含抓取等原子技能,能用少量真机数据学习新技能 [8] Being - 0的数据训练优势 - VLM模型模块利用低成本、海量第一人称视频数据学习,成为衔接基础大模型和底层技能库的桥梁 [8] - 模块化技能库只需少量遥操作数据训练短程原子技能,每个技能约100条轨迹,显著降低数据需求 [10] Being - 0的操作与部署特点 - 采用全尺寸人形机器人,搭载灵巧手和主动视觉,实现人类级灵活操作,主动调整头部视角提高环境感知 [11][12] - 将VLM和底层技能库部署于机器人端,实现高效实时任务响应,最小化对网络和外部算力依赖 [13] Being - 0的任务执行效果 - 在多项真实世界长程任务中表现卓越,能在办公生活场景实现自主搬运、抓取、制作咖啡等能力 [14] - VLM设计提供高效、高成功率的技能规划和导航能力,长程任务成功率远超基线方法 [15] - 主动视觉设计增强任务完成度,使导航、操作更灵活高效 [16] Being团队情况 - 由来自北京大学、智源研究院以及智在无界的研究人员组成 [17] - 正在持续迭代人形机器人具身大模型、全身运动控制、灵巧操作等能力,让机器人智能体涌现更强自主能力和泛化性 [17]
对话理想智驾郎咸朋、贾鹏,一个后进生,怎么提前交卷了?
晚点LatePost· 2024-08-02 19:53
智能驾驶行业现状 - 中国智能驾驶研发进度被认为落后特斯拉1.5-2年,但理想认为产品体验最多落后半年[4] - 行业进入智能驾驶竞赛阶段,研发投入巨大,30亿起步且逐年递增,理想一年租卡费用达10亿人民币,未来将达10亿美元[7] - 价格战持续背景下,新势力集体转向智能驾驶战场,竞争激烈且充满分歧[6] 技术路线与进展 - 端到端技术成为新焦点,其意义在于让智能驾驶进入AI时代,通过数据训练提升系统能力[9][12] - 理想采用"端到端+VLM"双系统架构,声称是全球首个实现该架构落地的车企[9][46][47] - 特斯拉FSD V12的进步刺激行业加速,华为无图方案推动问界销量从数千飙升至3万[7] - 蔚来、小鹏、华为等也宣布实现端到端技术量产落地[13] 理想智驾发展策略 - 2023年秋季战略会明确智能驾驶为核心战略,目标2024年成为行业头部[8][69] - 采用快速迭代策略,从NPN到无图NOA仅用4个月,再到端到端内测仅7个月[8][18] - 通过数据闭环体系积累超过20亿公里自动驾驶里程,其中NOA使用近10亿公里[33][34] - 拥有等同5000张A100/A800的算力支持,训练数据年底将超500万公里[40][42] 组织与执行能力 - 强调组织效率优势,研发与交付双线并行,快速决策与执行[27][28] - 采用独特研发流程:小范围验证→提升能力→修补bug→稳定质量[28] - 智驾团队经历六次关键战役,从基础功能到端到端逐步突破[63][64] - 团队规模从100人扩张至1000多人,后优化调整以适应技术迭代[75] 行业竞争格局 - 特斯拉被视为技术标杆,但其硬件限制可能影响FSD在中国市场的表现[44][45] - 理想认为已改写行业排名,下一个赛点是L4级自动驾驶的实现[61][62] - 各厂商技术路线表述不同但目标一致:最终实现L4级自动驾驶[16] - 华为、小鹏等竞争对手也在推进类似技术,如系统1+系统2架构[55]