Workflow
具身智能之心
icon
搜索文档
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 17:48
具身智能与机器人研究前沿 - 具身智能的核心在于物理模拟器与世界模型的整合,物理模拟器提供高保真训练环境,世界模型赋予机器人环境内部表征能力[4] - 智能机器人能力分级模型包含五个渐进级别(IR-L0到IR-L4),涵盖自主性、任务处理能力等关键维度[6][7] - IR-L0为完全非智能程序驱动级别,IR-L1具备有限基于规则的反应能力,IR-L2引入初步环境意识与自主能力[12][13][14] 机器人技术支撑体系 - 机器人运动控制技术包括模型预测控制(MPC)、全身控制(WBC)、强化学习(RL)和模仿学习(IL)等方法[22] - 视觉-语言-动作模型(VLA)通过预训练实现自然语言指令到机器人动作的映射,但存在未见过任务处理挑战[22] - 机器人操作技术从基于夹具操作发展到灵巧手操作,DexGraspVLA实现零样本高成功率抓取[24] 物理模拟器技术 - 主流模拟器包括Webots、Gazebo、MuJoCo、PyBullet、Isaac系列等,各具特点如MuJoCo专为关节系统设计,Isaac系列支持GPU加速[29] - 模拟器物理特性对比涵盖物理引擎、特殊物理效果支持和可微物理能力等维度[30] - 高端模拟器如Isaac Sim在多物理场支持上更全面,传统模拟器在复杂物理交互上存在局限[33] 世界模型技术 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[40] - 代表性架构包括循环状态空间模型(RSSM)、联合嵌入预测架构(JEPA)、Transformer-based模型等[41][42][44] - 扩散生成模型如Sora可预测物体物理交互,被称为"世界模拟器"[46] 行业应用与挑战 - 自动驾驶领域应用世界模型三大技术范式:神经模拟器、动态模型和奖励模型[56][57][58] - 铰接式机器人领域世界模型通过模拟物体动态与环境反馈提升操作泛化能力[60][61] - 核心挑战包括高维感知、因果推理缺失和实时性问题,未来方向聚焦3D结构化建模和多模态融合[64][65][66]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 21:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 21:36
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,实验显示整体任务成功率平均提升41.9%,分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人数据微调,预训练后成功率提升38.6%,分布外场景提升82.7%,且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集,包含6类家庭任务如玩具收集、鞋架整理等,30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输,通过头部动作映射躯干运动扩展工作空间,腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间,采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干,支持多模态数据联合训练,验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中,预训练MXT成功率达87.5%-95.8%,OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线,小数据集下成功率仍超70%,长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务,但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]
具身智能,到了交卷的时刻了。。。
具身智能之心· 2025-07-03 16:22
具身智能技术发展 - 具身智能技术从沉寂到疯狂再到冷静,行业进入量产交卷阶段,未来将更注重可靠性而非演示效果[2] - 感知能力升级与多模态融合是技术发展关键,触觉感知成为重点发力领域,力控技术提升操作精细度[2] - 大模型驱动算法提升机器人认知能力,推动自主学习与决策规划,轻量化模型设计成为行业落地迫切需求[2] - 仿真环境与数据生态建设加速技术发展,sim2real技术推动仿真与现实世界对齐[2] 行业生态与社区资源 - 具身智能之心知识星球汇聚近200家具身公司及研究机构成员,覆盖国内外知名高校实验室和头部企业[8] - 社区提供40+开源项目、60+数据集、主流仿真平台及20+技术学习路线,涵盖感知、交互、强化学习等领域[8][33][37] - 汇总国内外具身智能公司,涉及教育、医疗、工业等多方向,并整理行业研报、零部件品牌及开源项目[15][17][21][23] 技术研究方向与资源 - 多模态大模型技术覆盖理解与生成两大方向,包括图像、视频、音频等多模态数据处理[41][43] - 机器人导航、机械臂抓取、双足/四足机器人等细分领域均有完整技术路线与开源资源支持[51][55][57] - 触觉感知领域整合最新综述、传感器应用及多模态算法,强化学习路线涵盖LLM应用与可解释性研究[39][31] 社区服务与活动 - 提供求职岗位分享、产业体系方案及直播交流活动,成员可自由提问工作与研究方向选择问题[7][61][63] - 社区定期更新学术进展与工业落地应用,成员可获取专属学习视频及企业对接机会[13][64]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解~
具身智能之心· 2025-07-03 16:22
自动驾驶范式演进 - 端到端自动驾驶模式将传感器输入直接映射到驾驶动作,架构为环境信息输入→端到端网络→驾驶动作,但存在可解释性差和难以处理长尾场景的问题 [3] - 用于自动驾驶的视觉语言模型引入语言理解和推理能力,架构为环境信息输入→VLM→推理链/多任务→非直接控制输出,提升了系统可解释性和泛化能力,但存在语言输出与实际控制脱节的行动鸿沟 [3] - 视觉-语言-行动模型是当前最前沿范式,在统一策略中融合视觉感知、语言理解和动作执行,架构为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,能理解高级指令、推理复杂场景并自主决策 [3] VLA4AD架构范式 - 多模态输入包括视觉数据(从单前视摄像头发展到多摄像头环视系统)、其他传感器数据(激光雷达、雷达、IMU、GPS及本体感知数据)和语言输入(从直接导航指令演进到对话式推理和语音指令) [9] - 核心架构模块包含视觉编码器(使用DINOv2或CLIP等大型自监督模型)、语言处理器(使用LLaMA2或GPT系列模型并通过指令微调适应领域)和动作解码器(通过自回归令牌器、扩散模型头或分层控制器生成控制输出) [7][9] - 驾驶输出形式从低阶控制(如方向盘转角、油门刹车信号)演进为高阶规划(如轨迹或路径点),后者具有更好可解释性、拓展能力和长时程推理能力 [10][18] VLA模型发展阶段 - 阶段一(语言模型作为解释器)采用冻结视觉模型和LLM解码器生成场景描述,代表工作DriveGPT-4可生成高阶操纵标签或场景描述,但存在延迟问题和效率低下局限 [16][22] - 阶段二(模块化VLA模型)将语言作为主动规划组件,代表工作包括OpenDriveVLA生成可读中间路径点、CoVLA-Agent将动作Token映射到轨迹、DriveMoE动态选择子规划器、SafeAuto引入符号化交通规则验证计划 [19][22] - 阶段三(统一端到端VLA模型)构建单一网络直接映射传感器输入到控制信号,代表工作包括EMMA联合执行检测和规划、SimLingo/CarLLaVA通过行动构想技术耦合语言与轨迹、ADriver-I利用扩散技术预测未来画面 [20][22] - 阶段四(推理增强VLA模型)将LLM置于控制环路核心进行长时程推理,代表工作ORION结合记忆模块输出轨迹和解释、Impromptu VLA通过思维链对齐行动、AutoVLA融合CoT推理和轨迹规划 [21][22] 数据集与基准 - BDD100K/BDD-X提供10万个真实驾驶视频和7千个带文本解释片段,被CoVLA-Agent和SafeAuto等模型采用 [25][27] - nuScenes包含1000个场景的多传感器数据,是VLA4AD模型综合评估的重要平台 [25][33] - Bench2Drive是基于CARLA的闭环驾驶基准,包含44种场景和220条路线,DriveMoE通过混合专家架构在该基准领先 [25][33] - Reason2Drive提供60万个带思维链风格问答的视频-文本对,并引入一致性评估指标 [25][33] - Impromptu VLA专注边缘场景,包含8万个驾驶片段并配有专家轨迹和问答对,能显著提升闭环安全性 [25][33] - DriveAction包含2600个场景和1.62万个带动作标签的问答对,提供基于人类偏好决策的评估协议 [25][33] 挑战与未来方向 - 六大挑战包括鲁棒性与可靠性(语言模型幻觉和环境噪声问题)、实时性能(30Hz计算瓶颈和模型优化需求)、数据与标注瓶颈(三模态数据稀缺和合成数据局限)、多模态对齐(以摄像头为中心和融合技术不成熟)、多智能体社会复杂性(协作难题和交通语言缺失)以及领域自适应与评估(泛化能力不足和标准缺失) [30][31][32][34][35] - 五大未来方向包括构建基础驾驶大模型(GPT风格骨干网络)、开发神经-符号安全内核(结合神经网络灵活性和符号逻辑可验证性)、实现车队级持续学习(通过语言片段描述新情况)、建立标准化交通语言(定义规范意图集)以及提升跨模态社交智能(理解手势和声音等非语言线索) [36][38]
重塑具身导航策略!RSRNav:基于空间关系推理的图像目标导航
具身智能之心· 2025-07-02 18:18
研究背景 - 视觉导航是具身智能中的重要研究领域,要求智能体在不熟悉的环境中导航以到达特定目标,图像目标导航(ImageNav)任务在家庭机器人、增强现实系统和视觉障碍人士辅助等领域有潜在应用 [5] - 现有ImageNav方法分为模块化方法和端到端方法,模块化方法将任务分解为多个独立子任务,端到端方法直接从数据中学习感知-动作策略 [5] - 现有方法在导航效率和鲁棒性方面仍面临挑战,语义特征向量无法提供目标方位信息,可能导致多余动作影响效率,且用户与智能体视角不一致会导致性能下降 [5] 研究方法 - 提出RSRNav方法,通过在导航过程中持续推理目标与当前观测之间的空间关系来引导导航动作,解决现有方法导航效率低下和对视角不一致敏感的问题 [5] - 通过计算目标图像与当前观测图像特征之间的相关性来建模空间关系,设计了从"极简关系"到"方向感知关系"三种逐步增强的关系建模版本 [5] - 使用强化学习训练导航策略,奖励信号由两个子奖励函数组成,分别指导智能体学习接近目标和调整角度 [13] 技术实现 - 采用简单ResNet-9网络对目标图像和当前图像进行编码,不进行任何预训练 [8] - 逐步强化相关性计算,从极简关系(两个相关性分数)到密集关系(全局相似性矩阵)再到方向感知关系(多尺度相关性向量) [12][13] - 使用PPO算法进行端到端训练,策略网络设置为2层GRU,嵌入大小为128,在4×3090 GPUs上训练400M步 [19] 实验结果 - 在"用户匹配目标"设置下,RSRNav的SPL为56.6%,SR为83.2%,显著优于其他方法 [20] - 在Gibson数据集上,"极简关系"SPL为16.1%,"密集关系"SPL为53.2%,"方向感知关系"SPL提高到61.2% [22] - 在更极端的目标相机设置下(高度、俯仰角和视场角变化更大),RSRNav仍表现出色,SPL为22.8%,SR为40.2% [23] 应用潜力 - RSRNav在跨域泛化方面表现优异,在MP3D和HM3D数据集上均取得最佳性能,显示出处理视角不一致和泛化到新场景的强能力 [20] - 方法具有最小参数数量,在保持高性能的同时更适合实际应用 [22] - 可视化显示RSRNav导航路径更直接,能更精确调整角度对准目标 [23]
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 18:18
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[4] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、建模范围有限等问题[4] - 核心问题是如何在统一、高效的框架中整合物理知识[4] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[5] - 设计了四步处理流程构建含物理先验的多模态具身数据集[6] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[8] - 物理属性标注:生成深度图序列并进行关键点轨迹追踪,提取时间深度一致性和关键点运动轨迹[8] - 视频切片:结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[8] - 片段过滤:用FlowNet过滤运动模糊或模式混乱的片段,确保训练数据有效性[8] - 片段分类:按动作难度和场景分类,支持课程学习策略[8] 时间深度预测 - 增加时间深度预测分支,采用双分支协同自回归Transformer(DCT)[10] - 通过跨分支交互,将深度分支的中间特征与RGB特征融合,使RGB生成保持精确几何结构[10] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[11] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制[12] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[16] - 对比4种先进模型,RoboScape在外观保真度、几何一致性、动作可控性上均优于基线[15] - 消融实验显示,时间深度学习和关键点动态学习对性能至关重要[17] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy性能接近真实数据训练结果[19] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[20] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953[22] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[23] - 未来计划将生成式世界模型与真实机器人结合,验证在实际场景中的表现[24]
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 18:18
视觉-语言-动作模型(VLA)的挑战与改进 - 动作表示效率低:传统连续动作离散化方法难以捕捉复杂时空动态,导致长时域任务中累积误差增大 [3][4] - 数据依赖瓶颈:真实机器人数据采集成本高,限制模型泛化能力 [3][4] 核心贡献 - 通用动作分词器框架:基于卷积残差VQ-VAE的框架替代传统分桶离散化方法 [4] - 合成数据驱动缩放:利用超大规模合成数据(100倍于先前工作)训练分词器,纯合成数据训练的VQ在真实任务接近混合数据性能 [4] - 性能全面优化:长时域任务成功率最高提升30%,动作执行频率从4.16Hz提升至11.84Hz [4][13] 关键技术方案 - 卷积残差VQ-VAE架构:采用2D时序卷积层替代传统MLP,LIBERO-10任务成功率提升6.6%(60.0% vs 53.4%) [7][8] - 残差量化:通过多阶段残差向量量化(RVQ)压缩动作序列 [10] - 渐进式训练策略:嵌入增强(时间嵌入和动作类型嵌入)使"翻正锅具"任务成功率提升5% [11][12] 关键实验发现 - 仿真环境(LIBERO):卷积残差VQ-VAE在LIBERO-10任务成功率60.0%,显著高于MLP版的53.4% [17] - 真实机器人(Franka Research 3):纯合成数据训练的VQ在真实任务表现接近混合数据版本,证实合成-真实域差距极小 [17] - 长时域任务:玩具放入抽屉任务成功率30.0% vs 基线5.0%,所有杯子放入篮子任务成功率50.0% vs 基线15.0% [17] 消融研究与未来方向 - 动作分块机制:VQ分块在LIBERO-90成功率86.61%,显著高于自回归分块的66.53% [19] - 嵌入层贡献:加入时空嵌入使LIBERO-90成功率提升0.99% [19] - 未来方向:整合更大规模合成数据集(如RLBench),结合蒸馏与量化技术进一步加速推理 [19]
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 18:18
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变 分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路" 目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含语言指令理解、环境感知、运动策略规划三方面 系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 编码器采用预训练视觉语言模型 LLM用于指令拆解和任务拆分是主流范式 [2] - 序列决策采用隐式端到端(隐变量表示)或显式端到端(拓扑图/BEV语义地图/神经辐射场建模)方法 [2] - 策略网络学习从标注数据提取模式转向LLM先验知识蒸馏 [3] 目标导航技术特征 - 需在陌生3D环境中仅凭目标描述自主完成探索与路径规划 [4] - 实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开障碍物)的交叉突破 [6] 商业落地应用 - 终端配送场景:美团无人车动态路径重规划 Starship园区配送机器人欧美落地 [8] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能商用机器人实现药品/文件/餐食自主配送 美国Aethon公司TUG系列应用 [8] - 人形机器人领域:宇树科技Unitree通过Habitat预训练 智元工业场景集成导航模块 特斯拉Optimus展示端到端操作能力 [8][9] - 导航技术岗位需求旺盛 部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 知识碎片化导致入门困难 [10] 相关培训课程内容 - VLN课程涵盖仿真环境、基准测试、端到端方法、数据增强策略等 目标导航课程包含语义框架、Habitat仿真、LLM/VLM驱动系统等 [13][16] - 学习成果包括掌握技术框架、3D仿真环境开发、零样本导航实现、Sim2Real部署等能力 [15][17]
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 15:44
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续等问题[3] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、窄域局限或场景级生成困难等问题[3] - 核心问题是如何在统一、高效的框架中整合物理知识[3] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集,包括物理属性标注、视频切片、片段过滤和片段分类[5] - 基于自回归Transformer框架实现帧级动作可控的机器人视频生成,通过时间深度预测和自适应关键点动态学习整合物理知识[5][7][8] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),通过RGB分支和深度分支分别预测,跨分支交互将深度分支的中间特征与RGB特征融合[7] - 损失函数为令牌的交叉熵损失,确保RGB生成保持精确几何结构[7] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性,基于运动幅度自适应选择 top-K 活跃关键点[8] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制增强关键点轨迹区域的令牌学习[9] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[13] - 对比4种先进模型,RoboScape在LPIPS(0.1259)、PSNR(21.8533)、AbsRel(0.3600)、δ1(0.6214)、δ2(0.8307)和∆PSNR(3.3435)上均优于基线[12][18] - 消融实验显示移除时间深度学习或关键点动态学习均会导致性能下降,深度学习保障几何一致性,关键点学习对视觉保真度和动作可控性至关重要[14] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy(DP)性能接近真实数据训练结果,成功率随合成数据量增加而提升[16][17] - 在LIBERO任务中,π0模型用生成数据训练后性能超过真实数据训练的基线[17] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953,显著高于基线[19] 结论与展望 - RoboScape通过多任务联合训练框架将物理知识高效整合到视频生成中,无需级联外部物理引擎[20] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[21]