具身智能之心

搜索文档
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 17:48
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变,分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路",目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 主流采用预训练视觉语言模型和LLM进行指令拆解,编码器设计需解决多模态表征空间投影问题 [2] - 序列决策通过隐式端到端(隐变量)或显式端到端(拓扑图/BEV语义地图)方法实现环境建模 [2] - 策略学习从标注数据转向LLM知识蒸馏,数据增强是关键 [3] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划,涉及语义解析、环境建模、动态决策 [4][6] - 需整合计算机视觉、强化学习与3D语义理解技术,实现从被动执行到主动决策的跃迁 [6] 商业应用现状 - 美团无人配送车、Starship Technologies园区机器人实现动态环境配送 [8] - 嘉楠科技、云迹科技、擎朗智能的医疗/酒店机器人完成药品/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree系列、智元工业机器人、特斯拉Optimus集成目标导航模块 [8][9] - 导航技术岗位需求旺盛,部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 [10] - 知识碎片化且论文数量庞大,跨领域学习路径困难 [10] 专业课程内容 - VLN课程覆盖仿真环境、端到端方法、数据增强策略及实战,培养1年从业经验 [13][15][16] - 目标导航课程包含Habitat仿真、LLM/VLM驱动系统、Sim2Real部署等,实现零样本导航能力 [16][17]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 作者:Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位: 香港大学, 上海AI实验室 论文标题:VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接:https://arxiv.org/abs/2506.17221 项目主页:https://vlnr1.github.io/ 代码链接:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架 :利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现连续环境中的视觉语 言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的 ...
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 17:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xiaoxiao Long等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 本综述聚焦具身智能在机器人研究中的前沿进展,指出实现强大具身智能的关键在于物理模拟器与世界模 型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部 表征能力以支持预测规划与决策。 文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨 了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新 文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey, 旨在为具身 AI 系统的发展提供全面视角并明确未来挑战。 一些介绍 随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研 ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 21:36
职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并 探索其在自动驾驶和通用机器人领域的统一应用潜力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对 ...
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 21:36
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yaru Niu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 四足机器人虽在复杂环境中移动能力出色,但赋予其可扩展的自主多功能操作技能仍是重大挑战,为此本 文提出一种用于四足操作的跨实体模仿学习系统,该系统利用从人类和配备多种操作模式的四足机器人 LocoMan 收集的数据,通过开发远程操作和数据收集管道来统一并模块化人类和机器人的观察空间与动作 空间,同时提出高效模块化架构以支持不同实体间结构化模态对齐数据的联合训练和预训练,还构建了首 个涵盖单手和双手模式下各种家庭任务的 LocoMan 机器人操作数据集及相应人类数据集;实验在六个真实 世界操作任务中验证,与基线相比整体成功率平均提升 41.9%、分布外场景提升 79.7%,利用人类数据预训 练后整体成功率提升 38.6%、分布外场景提升 82.7%,且仅用一半机器人数据就能持续实现更好性能。 我们的代码、 ...
具身智能,到了交卷的时刻了。。。
具身智能之心· 2025-07-03 16:22
本体的多样化催促各类数据的共用,包括双足、轮式、轮足复合等形态的数据如何从不同关节、执行器 抽象出共同特征至关重要! 以上是我们在具身智能之心知识星球中的分享,更多干货欢迎扫码加入,和近200家具身公司、研究机 构成员一起交流! 点击下方 卡片 ,关注" 具身智能 之心 "公众号 具身智能无疑是这两年最火的技术关键词。从沉寂到疯狂,再到冷静。今年上半年很多家公司都 在尝试具身量产交卷。未来行业不再是 随便哪家发出来的 demo 和 pr 稿就可以引起轰动,业内技 术人才很快就可以破案,讲的好不如真可靠。最近像地瓜机器人演示了宇树Go2四足机器狗,效 果已经可圈可点,相信未来会有更多的量产产品问世! 可以说感知能力升级与多模态融合是具身技术路线发展的重要一环,在视觉感知之外,触觉感知则是这 两年发力的重点,特别是灵巧手领域,力控能大幅提升操作的精细度及结果反馈能力。多模态传感器融 合技术使机器人能够同时处理视觉、听觉、触觉等多种信息,这种融合不仅体现在硬件层面,更在于算 法层面的深度整合。大幅提升了环境感知的准确性和全面性。 大模型驱动的大脑算法正在不断地提升机器人对世界的经验认知与理解。特别是在人形机器人领域 ...
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 18:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yu Shang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 根源在于现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness。此前整合物理知识的尝试分为三类: 物理先验正则化(局限于人类运动或刚体动力学等窄域)、基于物理模拟器的知识蒸馏(级联 pipeline 计 算复杂)、材料场建模(限于物体级建模,难用于场景级生成)。因此,如何在统一、高效的框架中整合 物理知识,成为亟待解决的核心问题。 核心方法 问题定义 聚焦机器人操作场景,学习具身世界模型 作为动力学函数,基于过去的观测 和机器人动作 预测 下一个视觉观测 ,公式为: 研究背景与核心问题 在具身智能领域,世界模型作为强大的模拟器,能生成逼真的机器人视频并缓解数据稀缺问题,但现有模 型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中,因缺乏对3D几何和运动动力学的建模能 力,生成的视频常出现不真实的物体变形或 ...
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 18:18
视觉-语言-动作模型(VLA)的挑战与改进 - 动作表示效率低:传统连续动作离散化方法难以捕捉复杂时空动态,导致长时域任务中累积误差增大 [3][4] - 数据依赖瓶颈:真实机器人数据采集成本高,限制模型泛化能力 [3][4] 核心贡献 - 通用动作分词器框架:基于卷积残差VQ-VAE的框架替代传统分桶离散化方法 [4] - 合成数据驱动缩放:利用超大规模合成数据(100倍于先前工作)训练分词器,纯合成数据训练的VQ在真实任务接近混合数据性能 [4] - 性能全面优化:长时域任务成功率最高提升30%,动作执行频率从4.16Hz提升至11.84Hz [4][13] 关键技术方案 - 卷积残差VQ-VAE架构:采用2D时序卷积层替代传统MLP,LIBERO-10任务成功率提升6.6%(60.0% vs 53.4%) [7][8] - 残差量化:通过多阶段残差向量量化(RVQ)压缩动作序列 [10] - 渐进式训练策略:嵌入增强(时间嵌入和动作类型嵌入)使"翻正锅具"任务成功率提升5% [11][12] 关键实验发现 - 仿真环境(LIBERO):卷积残差VQ-VAE在LIBERO-10任务成功率60.0%,显著高于MLP版的53.4% [17] - 真实机器人(Franka Research 3):纯合成数据训练的VQ在真实任务表现接近混合数据版本,证实合成-真实域差距极小 [17] - 长时域任务:玩具放入抽屉任务成功率30.0% vs 基线5.0%,所有杯子放入篮子任务成功率50.0% vs 基线15.0% [17] 消融研究与未来方向 - 动作分块机制:VQ分块在LIBERO-90成功率86.61%,显著高于自回归分块的66.53% [19] - 嵌入层贡献:加入时空嵌入使LIBERO-90成功率提升0.99% [19] - 未来方向:整合更大规模合成数据集(如RLBench),结合蒸馏与量化技术进一步加速推理 [19]
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 18:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间,是否应该首先对语言指令在 指令级别的拆分然后在压缩是其中的关键问题。这其中,采用在大规模数据集上预训练的视觉语⾔模型, 利用LLM做指令拆解和任务拆分是目前主流且前沿的范式。 VLN机器⼈需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任 务。那么如何累积历史上获得的信息,判断当前执行到任务的哪个阶段,为 ...
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 15:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yu Shang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与核心问题 在具身智能领域,世界模型作为强大的模拟器,能生成逼真的机器人视频并缓解数据稀缺问题,但现有模 型在物理感知上存在显著局限。尤其在涉及接触的机器人场景中,因缺乏对3D几何和运动动力学的建模能 力,生成的视频常出现不真实的物体变形或运动不连续等问题,这在布料等可变形物体的操作任务中尤为 突出。 基于自回归Transformer框架,实现帧级动作可控的机器人视频生成,核心是通过两个物理感知辅助任务整 合物理知识(figure 2): 根源在于现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness。此前整合物理知识的尝试分为三类: 物理先验正则化(局限于人类运动或刚体动力学等窄域)、基于物理模拟器的知识蒸馏(级联 pipeline 计 算复杂)、材料场建模(限于物体级建模,难用于场景级生成)。因此, ...