Workflow
具身智能之心
icon
搜索文档
HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜
具身智能之心· 2025-08-30 00:03
研究背景与动机 - 传统视觉语言导航系统忽视人类动态和部分可观测性 而现实导航场景涉及动态人类活动如人群移动和个人空间需求[6] - 提出人类感知视觉语言导航任务要求智能体在遵循语言指令同时应对动态人类活动 预测人类运动 尊重个人空间并调整路径避免碰撞[6] - 人类感知视觉语言导航任务将离散和连续导航范式统一 在明确社会意识约束下进行 包括标准化任务定义 升级数据集和模拟器 基准测试 真实世界测试和公开排行榜[8] 任务定义与框架 - 人类感知视觉语言导航任务状态空间包括智能体3D位置 朝向和以自我为中心视图 离散环境中智能体在预定义视点间跳跃 连续环境中智能体看到90°视场RGB+D馈送并进行小增量移动[9] - 动作空间在两种环境中均为动作分布 动态人类模型根据HAPS 2.0中3D运动轨迹自然移动 个人空间要求智能体避免过于接近人类 在离散环境中距离小于3米 在连续环境中距离小于半径之和[9] - 以人为中心指令描述人及其活动 需要文本提示与实时视觉输入一致性 详细人类位置和运动通过多阶段管道标注 涉及广泛标记和验证确保真实性[9] 数据集与模拟器 - HAPS 2.0数据集包含486个运动序列 涵盖室内外活动 通过两轮人工验证对齐文本描述和运动数据 消除HAPS 1.0中超过一半不准确配对 最终得到172个精确对齐运动[12][14] - HAPS 2.0在运动准确性 环境兼容性 失败案例数量和标注工作量等方面优于HAPS 1.0 包含26个不同区域 覆盖90个建筑场景 涵盖486个人类活动[14] - HA-VLN模拟器基于HAPS 2.0数据集 提供两个互补模块HA-VLN-CE用于连续导航和HA-VLN-DE用于离散导航 共享统一API 提供一致人类状态查询 动态场景更新和碰撞检查[12] 标注与验证 - 标注流程采用粗粒度到细粒度方法 设置九个RGB相机位置和角度提供全面多视角视图 用于检测人类与周围物体间潜在碰撞或对齐问题[16][19] - 细粒度标注协议通过六步程序微调人类位置和朝向 包括初始视图 多相机观察 垂直碰撞检查 水平平移 侧相机审查和最终输出[19] - 使用大模型如ChatGPT-4和LLaMA-3-8B-Instruct提出合理多人场景 对语言模型产生候选互动进行四轮手动细化和验证 确保上下文对齐[22] 基准测试与结果 - HA-R2R数据集扩展R2R-CE 增加16,844条精心策划指令 强调社交细微差别如对话 走廊交叉和近碰撞事件 测试分区包含3,408条指令 分布在18栋保留建筑中 强调多人路线[28][36] - 在HA-VLN任务中整合模型时出现显著增益 例如BEVBert成功率在已见分割中从0.19提高到0.27 在未见分割中从0.15提高到0.21[40] - 在连续导航基准测试中 HA-VLN-CMA-Base在已见验证集上获得7.63导航误差 0.77总碰撞率和0.05碰撞率 成功率63.09[39] 真实世界验证 - 在四种室内空间办公室 客厅 走廊 大厅中部署训练有素智能体 每个空间有2-4名自由移动志愿者 实验在适度拥挤条件下进行 面临狭窄走廊或人群突然聚集挑战[36][47] - 使用Unitree Go2-EDU四足机器人 配备Intel Realsense D435i RGB-D相机 MID360 3D LiDAR和IMU 用于机载感知和控制[36] - 机器人经常暂停或让路避开迎面而来行人 在没有旁观者情况下顺利导航 但在狭窄走廊或人群突然聚集时出现碰撞[51] 性能评估 - HA-VLN-VL智能体基于Recurrent VLNBERT 采用模仿学习方法 在复杂设置中通过更强多模态基础提升性能[31] - HA-VLN-CMA智能体基于交叉模态注意力 在每个时间步融合文本嵌入和视觉特征 通过多头注意力机制产生联合表示 然后通过MLP映射到动作概率[33] - 在真实世界测试中 HA-VLN-VL智能体在办公室环境中获得0.42无碰撞成功率和0.11碰撞率 在客厅环境中获得0.43无碰撞成功率和0.17碰撞率[48] 挑战与未来方向 - 社交导航需要无碰撞运动并尊重个人空间 人类对齐指令可能涉及短暂活动或互动 自适应重规划要求应对人类不可预测阻塞或解阻通道[9] - 部分可观测性和突然群体形成仍然是挑战 特别是在狭窄通道或拥挤路口 需要进一步改进碰撞预测和反应控制[51] - 未来工作可集中在提高智能体对人员行为预测能力 在更复杂动态环境中测试 以及探索技术在其他领域如服务机器人或自动驾驶汽车中应用[51]
OpenHelix 团队新作!Long-VLA:深入探究端到端VLA模型的长时瓶颈和有效解决方案
具身智能之心· 2025-08-29 13:02
文章核心观点 - Long-VLA是首个针对机器人长时任务设计的端到端视觉语言动作模型 通过引入阶段感知输入掩码机制动态调整视觉模态输入 有效解决技能链问题 在仿真和真实环境中均显著超越现有方法[2][3][4] 技术背景与创新点 - 现有VLA模型在长时任务中效果大幅下降 主要由于子任务衔接不稳定导致误差累积[2] - 传统方法分为三类:端到端统一模型(短时任务有效但长时表现不佳)、任务分解方法(缺乏协调导致状态漂移)、输入适配模块化方法(与VLA统一范式冲突)[3] - Long-VLA核心创新在于将子任务划分为移动阶段(关注全局空间线索)和交互阶段(聚焦局部精细感知) 通过二进制掩码动态调整相机视角输入[2][6][7] 模型架构 - 采用统一端到端训练架构 保持VLA大规模扩展优势[4][6] - 重新标注形成L-CALVIN数据集 每条轨迹带有明确阶段切分点[6] - 通过条件扩散模型生成动作序列 保持输入结构一致性[7] 性能表现 **仿真环境(L-CALVIN)** - D→D场景:在10项连续任务中完成率从基准策略的0.11提升至0.20(81%提升)[10] - ABCD→D场景:第10项任务完成率达0.56 较基准策略0.45提升25%[10] - 子任务完成率普遍提升15%-42% 最高提升出现在第9项任务(100%从0.13至0.26)[10] **真实场景** - 在Sorting和Cleaning任务中 面对随机位置/光照变化/视觉干扰均显著优于基线[10] - 平均任务长度:基于HULC从2.65提升至3.30(0.65提升) 基于MDT从4.11提升至4.81(0.7提升)[12] 技术意义 - 首次实现端到端训练与长时适应性平衡 为机器人长时任务提供新基准[13] - 不依赖在线奖励信号 更契合离线大规模训练范式[4] - 避免模块化方法的数据切割问题 保持统一架构优势[4][6]
四足机械狗+单臂,低成本开启你的具身学习之旅
具身智能之心· 2025-08-29 12:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗与机械臂集成开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习及sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 覆盖具身智能下肢控制大部分技术模块 [2] - 系统基于ROS1开发 支持TCP语音控制、键盘控制、视觉控制及强化自主运动等多种交互方式 [2][15] 硬件配置参数 - 机械狗主体尺寸25cm×20cm×30cm 重7kg 采用Allwinner H616主控芯片(4核1.6GHz) 配备4G内存与32G存储 [3][4][11] - 单腿3自由度 采用连杆传动 支持WIFI/蓝牙通信 配备千兆以太网/USB2.0/Micro-USB等开发接口 [5] - 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 机械臂采用20KG总线舵机 配备9-12.6V驱动板及12V/7A电源适配器 抓取范围0.4m(基座周围) 正上方极限抓取高度0.85m [6][7][12] 感知与视觉系统 - 深度相机采用主动双目红外+结构光技术 深度输出分辨率1280×800@30fps 工作距离0.2-10m(最佳精度0.2-4m) [14] - 深度精度达0.5mm(@0.5m)/1.0mm(@1.0m)/5.0mm(@2.0m) RGB摄像头支持1080p@30fps全局快门 [14] - 支持USB 3.0 Type-C接口 兼容Windows/Linux/Android系统 提供Orbbec SDK/OpenNI 2/ROS驱动包 [14] 软件与开发支持 - 开发语言以Python为主 推荐使用2080ti及以上GPU及i7以上CPU进行推理和二次开发 [16][24] - 集成主流大模型实现低延迟高准确性语音交互 支持sim2real与real2sim双向迁移 具备MuJoCo仿真环境映射能力 [17][18] - 提供目标识别算法实现机械臂与机械狗协同跟随 支持ACT模仿学习框架及强化学习步态控制 [19][20][21] 课程体系与技术支持 - 课程包含即插即用系统配置、ROS基础、MuJoCo仿真、IsaacGym环境部署、强化学习算法(PPO/DreamWaQ)、YOLO目标识别等26个模块 [22][23] - 教学团队由5名专家组成 涵盖硬件设计、视觉算法、强化学习等专业领域 包括港大博士生提供技术支持 [22] - 交付周期为付款后3周内 提供1年售后服务期 视频与源码在硬件确认收货后立即提供 [25][26]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-29 12:00
行业交流平台 - 具身智能和人形机器人领域建立专业交流群 促进技术合作与信息共享 [1] - 交流群面向人形运控 VLA模型 数据采集 硬件开发等相关技术方向的专业人士 [1] - 加入需通过微信助理审核 备注昵称和人形关键词方可获得入群资格 [2]
Long-VLA:西湖大学与阿里达摩院联合打造,全球首个支持长周期操作的端到端VLA模型
具身智能之心· 2025-08-29 12:00
技术背景与问题识别 - 视觉语言动作模型(VLA)利用大规模多模态数据成为机器人学习重要方法 但在多任务连续执行时效果显著下降 主要由于子任务衔接不稳定导致误差累积[2] - 现有技术分为三类:端到端统一模型在短时任务高效但长时任务表现不佳 任务分解方法缺乏子任务协调导致状态漂移 模块化方法与VLA统一学习范式冲突难以扩展[3] 核心创新与方法论 - 提出首个针对长时任务的端到端VLA模型Long-VLA 引入阶段感知输入掩码机制 将子任务划分为移动阶段和交互阶段[2] - 通过二进制掩码动态调整视觉模态输入:移动阶段屏蔽机械臂相机视角关注全局空间线索 交互阶段屏蔽静态全局相机视角聚焦局部精细感知[6] - 在统一架构内实现任务分解优势 保持端到端特性避免数据切割和训练碎片化 同时解决子任务衔接问题[4][6] 实验验证与性能表现 - 在优化后的L-CALVIN模拟环境中 任务长度提升至连续十个子任务 Long-VLA在D→D与ABCD→D场景均显著超越基线[8] - 真实场景测试显示 在Sorting和Cleaning两类长时任务中 随机位置、光照变化和视觉干扰条件下均显著优于基线[10] - 平均任务长度提升显著:在HULC基线上从2.65提升至3.30(增加0.65) 在MDT基线上从4.11提升至4.81(增加0.7)[13] 技术普适性与行业影响 - 该方法对HULC、MDT等其他方法具有普适性 可简单迁移到其他模型中 证明实际应用价值[12] - 首次实现端到端训练和长时适应性平衡 为机器人长时任务执行奠定基础 促进实际应用落地[14]
今晚直播|星海图 X Hugging Face!开源生态如何引领具身智能的未来?
具身智能之心· 2025-08-29 08:05
开源生态与具身智能发展 - 开源生态通过开发者社区和开放数据集加速具身智能技术落地 [1] - Hugging Face与星海图合作探索开源模型与开放世界数据集 [1] - 行业伙伴包括百度风投、知乎、小红书科技等共同参与生态建设 [2] 行业合作与活动 - Hugging Face联合创始人Thomas Wolf与星海图首席科学家赵行将进行深度对谈 [3][9] - 直播主题为开源生态如何引领具身智能未来 [6] - 活动时间为8月29日19:00 [4][10]
传统SLAM的定位导航和具身目标导航有什么区别?
具身智能之心· 2025-08-29 08:03
目标驱动导航技术概述 - 具身导航的核心领域涉及语言理解、环境感知和路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向 通过赋予机器人自主决策能力 [2] - 要求智能体在陌生三维环境中仅凭目标描述即可自主完成环境探索与路径规划 [2] 技术实现原理 - 系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 需自主完成语义解析 环境建模以及动态决策 [2] - 背后凝聚计算机视觉 强化学习与3D语义理解的交叉突破 [2] 产业化应用现状 - 在终端配送场景中与社交导航算法结合 使机器人具备应对动态环境和人际交互能力 [3] - 美团无人配送车通过动态路径重规划在复杂城市环境中执行递送任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗 酒店及餐饮场景中 嘉楠科技 云迹科技 擎朗智能的商用服务机器人已实现药品 文件和餐食的自主配送 [3] - 美国Aethon公司的TUG系列有效提升服务响应效率 [3] 人形机器人适配升级 - 宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 智元机器人在工业场景中集成目标驱动导航模块 [3] - 特斯拉Optimus展示"取放电池"等端到端操作能力 [3] - 搭载目标驱动导航系统的人形机器人正加速向家庭服务 护理及工业物流领域渗透 [3] 技术发展历程 - 基于Habitat仿真的具身导航生态完整记录领域技术迭代轨迹 [4] - 自2020年CVPR提出点导航基准以来 评测体系逐步扩展至图像导航 目标导航及移动抓取任务 [4] - 形成覆盖空间认知到任务执行的闭环 [4] 关键技术突破 - 视觉预训练模型提升特征泛化能力 [4] - 分布式强化学习框架使PointNav任务SPL指标显著提升 [4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题 [4] 当前技术梯度 - PointNav和闭集ObjectNav接近人类表现 [4] - 开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考 [4] - CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [4] 第一代端到端方法 - 基于强化学习与模仿学习框架 [5] - 设计网络结构以对齐目标描述与实时观测 [5] - 优化奖励函数与监督信号设计加速模型收敛 [5] - 增强数据多样性以提升泛化能力 [5] - 在点导航与闭集图片导航任务中取得突破性进展 [5] - 部分方法的SPL指标已逼近人类表现 [5] 第二代模块化方法 - 通过显式构建语义地图将任务分解为自主探索与目标定位两个子任务 [7] - 探索阶段依赖先验导航规则生成候选路径 [7] - 匹配阶段利用预训练视觉语言模型实现跨模态语义对齐 [7] - 在零样本目标导航任务中展现显著优势 [7] - 在未见物体场景下成功率提升明显 [7] 第三代LLM/VLM融合方法 - 引入大语言模型的知识推理能力 [9] - 在探索阶段生成语义指导的探索策略 [9] - 通过视觉语言模型的跨模态对齐能力提升开放词汇目标匹配精度 [9] - 当前研究重点在于设计场景表征接口 [9] - 将3D环境特征转化为LLM可解析的上下文格式 [9] - 在开放词汇目标导航任务中实现对未知类别的有效识别 [9]
FlowVLA:破解 VLA 模型 “物理失真” 难题,机器人世界建模再升级
具身智能之心· 2025-08-29 08:03
核心观点 - FlowVLA模型通过视觉思维链(Visual CoT)原则解决传统VLA世界模型的根本缺陷,将动态运动与静态外观解耦,显著提升长时程预测的物理合理性和下游任务样本效率 [1][8][36] - 模型在单自回归Transformer中统一外观与运动推理,采用"帧→光流→帧"的两阶段结构化预测流程,避免像素复制陷阱并增强物理动态理解 [9][12][14] - 实验验证显示,FlowVLA在LIBERO和SimplerEnv基准测试中达到最先进性能,长时程任务成功率提升显著,低数据场景下样本效率优势达55% [20][22][30] 技术架构创新 - 引入视觉思维链(Visual CoT)原则,强制模型先预测中间光流编码运动动态,再基于光流生成未来帧,实现动态与外观学习的解耦 [8][12][14] - 采用共享分词方案,将2通道光流场转换为RGB类图像,通过相同VQ-GAN分词器处理光流与原始帧,保持参数效率和架构简洁性 [9][15] - 两阶段训练范式:预训练阶段从无动作视频学习通用物理规律,微调阶段适配机器人控制任务,损失函数仅针对动作令牌计算 [15][16][19] 性能表现 - LIBERO数据集平均成功率88.1%,超越所有对比模型,其中长时程任务成功率72.6%较基线提升显著 [20][21] - SimplerEnv数据集平均成功率74.0%,在视觉偏移场景(如堆叠积木任务62.5%)表现优异,验证对真实环境变化的强适应性 [22][23] - 低数据场景下峰值成功率比基线高55%,仅用1000训练步数即超越基线峰值性能,样本效率优势显著 [30][32] 关键组件验证 - 消融实验显示:移除Visual CoT结构使成功率下降至64.0%,移除光流监督降至69.5%,证明核心设计必要性 [33][34] - 定性分析表明FlowVLA预测结果符合物理规律(无机械臂消失或物体运动异常),且与语言指令语义对齐 [24][26][29] - 统一分词方案和交错序列格式贡献49.4%基础性能,分组序列结构对整体效果有关键影响 [33][34] 行业价值定位 - 突破传统VLA模型端到端学习局限,提供动态优先的世界模型构建范式,为通用机器人开发奠定物理推理基础 [35][36] - 解决预训练被动观测知识与策略学习主动控制知识的领域差距,显著降低下游任务微调成本和收敛时间 [7][10][30] - 光流预测提供任务无关的低层物理理解,可作为高层控制基础,弥补现有具身推理方法在物理动态建模方面的不足 [35][36]
对话逐际动力张巍:造机器人很容易,关键是用起来
具身智能之心· 2025-08-29 08:03
编辑丨量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 "让天下没有难落地的机器人。" 在这样向量子位表达定位和使命后,逐际动力"解释了"为何会成为阿里投资的第一家具身智能机器人公司。 在这样解释定位和使命后,量子位大概感受到了逐际动力被投资的原因—— 至少是成为阿里第一个具身智能投资项目的原因。 实际上,之前更多的时候, 逐际动力创始人张巍 更倾向于用"英伟达"来类比,因为英伟达提供了一个底层平台,可以让游戏、汽车、机器人 等等不同领域的创新,成为可能。 逐际动力的创办和发展,也希望成为这样的平台——提供机器人平台,然后各个领域的开发者可以进一步打造应用方案和产品。 张巍说,"人形机器人的本体硬件制造非常容易,比造飞机、造汽车都要容易。" 真正阻碍机器人落地的是——大脑,而如何让机器人控得很好 ——是 小脑AI化的能力 。 在与量子位的访谈中,张巍从头说起,共识的和非共识的、逐际动力的或者是具身智能行业的……这次都几乎"讲完了"。 如果你想知道 ...
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 16:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]