视觉语言导航（VLN） - 财报，业绩电话会，研报，新闻

视觉语言导航（VLN）

搜索文档

具身智能之心· 2025-10-10 11:14

还在为论文选题抓耳挠腮？被数据建模折磨到头秃？面对导师批注手足无措？别慌！具身智能之心，资深导师团队在线 "救援"，一站式解决你的论文烦恼！论文辅导上线了【具身智能之心论文辅导重磅上线！多模态大模型/VLA/强化学习/VLN/数据采集/机器人仿真/端到端/diffusion 等顶会方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等具身智能体泛化（跨任务迁移、零样本适应、仿真环境构建） 3D高斯泼溅（3DGS）（实时渲染、动态场景建模、SLAM结合）端到端具身智能体（决策闭环、多模态传感器融合）具身合成数据生成（自动标注、域适应、数据增强）为什么选择我们？ ✅ 顶会/顶刊导师团队：来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员，覆盖ICML、ICLR、 CoRL、ICRA、NeurIPS、CVPR等顶级会议审稿经验。你是否正在研究以下前沿领域却苦于突破瓶颈？多模态大模型（视觉-语言预训练、跨模态推理）视觉语言动作（VLA）（端到端、分层等）视觉语言导航（VLN）（Embodied QA、指令跟随、场景理解）机器人抓取与 ...

HA-VLN：具备动态多人互动的视觉语言导航基准与排行榜

具身智能之心· 2025-08-30 00:03

研究背景与动机 - 传统视觉语言导航系统忽视人类动态和部分可观测性而现实导航场景涉及动态人类活动如人群移动和个人空间需求[6] - 提出人类感知视觉语言导航任务要求智能体在遵循语言指令同时应对动态人类活动预测人类运动尊重个人空间并调整路径避免碰撞[6] - 人类感知视觉语言导航任务将离散和连续导航范式统一在明确社会意识约束下进行包括标准化任务定义升级数据集和模拟器基准测试真实世界测试和公开排行榜[8] 任务定义与框架 - 人类感知视觉语言导航任务状态空间包括智能体3D位置朝向和以自我为中心视图离散环境中智能体在预定义视点间跳跃连续环境中智能体看到90°视场RGB+D馈送并进行小增量移动[9] - 动作空间在两种环境中均为动作分布动态人类模型根据HAPS 2.0中3D运动轨迹自然移动个人空间要求智能体避免过于接近人类在离散环境中距离小于3米在连续环境中距离小于半径之和[9] - 以人为中心指令描述人及其活动需要文本提示与实时视觉输入一致性详细人类位置和运动通过多阶段管道标注涉及广泛标记和验证确保真实性[9] 数据集与模拟器 - HAPS 2.0数据集包含486个运动序列涵盖室内外活动通过两轮人工验证对齐文本描述和运动数据消除HAPS 1.0中超过一半不准确配对最终得到172个精确对齐运动[12][14] - HAPS 2.0在运动准确性环境兼容性失败案例数量和标注工作量等方面优于HAPS 1.0 包含26个不同区域覆盖90个建筑场景涵盖486个人类活动[14] - HA-VLN模拟器基于HAPS 2.0数据集提供两个互补模块HA-VLN-CE用于连续导航和HA-VLN-DE用于离散导航共享统一API 提供一致人类状态查询动态场景更新和碰撞检查[12] 标注与验证 - 标注流程采用粗粒度到细粒度方法设置九个RGB相机位置和角度提供全面多视角视图用于检测人类与周围物体间潜在碰撞或对齐问题[16][19] - 细粒度标注协议通过六步程序微调人类位置和朝向包括初始视图多相机观察垂直碰撞检查水平平移侧相机审查和最终输出[19] - 使用大模型如ChatGPT-4和LLaMA-3-8B-Instruct提出合理多人场景对语言模型产生候选互动进行四轮手动细化和验证确保上下文对齐[22] 基准测试与结果 - HA-R2R数据集扩展R2R-CE 增加16,844条精心策划指令强调社交细微差别如对话走廊交叉和近碰撞事件测试分区包含3,408条指令分布在18栋保留建筑中强调多人路线[28][36] - 在HA-VLN任务中整合模型时出现显著增益例如BEVBert成功率在已见分割中从0.19提高到0.27 在未见分割中从0.15提高到0.21[40] - 在连续导航基准测试中 HA-VLN-CMA-Base在已见验证集上获得7.63导航误差 0.77总碰撞率和0.05碰撞率成功率63.09[39] 真实世界验证 - 在四种室内空间办公室客厅走廊大厅中部署训练有素智能体每个空间有2-4名自由移动志愿者实验在适度拥挤条件下进行面临狭窄走廊或人群突然聚集挑战[36][47] - 使用Unitree Go2-EDU四足机器人配备Intel Realsense D435i RGB-D相机 MID360 3D LiDAR和IMU 用于机载感知和控制[36] - 机器人经常暂停或让路避开迎面而来行人在没有旁观者情况下顺利导航但在狭窄走廊或人群突然聚集时出现碰撞[51] 性能评估 - HA-VLN-VL智能体基于Recurrent VLNBERT 采用模仿学习方法在复杂设置中通过更强多模态基础提升性能[31] - HA-VLN-CMA智能体基于交叉模态注意力在每个时间步融合文本嵌入和视觉特征通过多头注意力机制产生联合表示然后通过MLP映射到动作概率[33] - 在真实世界测试中 HA-VLN-VL智能体在办公室环境中获得0.42无碰撞成功率和0.11碰撞率在客厅环境中获得0.43无碰撞成功率和0.17碰撞率[48] 挑战与未来方向 - 社交导航需要无碰撞运动并尊重个人空间人类对齐指令可能涉及短暂活动或互动自适应重规划要求应对人类不可预测阻塞或解阻通道[9] - 部分可观测性和突然群体形成仍然是挑战特别是在狭窄通道或拥挤路口需要进一步改进碰撞预测和反应控制[51] - 未来工作可集中在提高智能体对人员行为预测能力在更复杂动态环境中测试以及探索技术在其他领域如服务机器人或自动驾驶汽车中应用[51]

具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~

具身智能之心· 2025-07-08 20:54

强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA)，OOD场景任务成功率提升42.6%，语义理解任务成功率从61.5%提升至75.0%，动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准，验证PPO优于GRPO和DPO算法，并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT)，视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术，在R2R-CE基准未见环境中成功率(SR)达47.9%，路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示，结合Foresight Action Planner实现前瞻决策，Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先：单目相机场景下Test Unseen的SR达45.7%，全景相机场景SR提升至60%，SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示，NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点，SPL提高4个百分点 [18] - 具身智能领域形成产学研社区，近200家公司及研究机构参与技术交流，涵盖招聘、学习资源及前沿技术更新 [23]

视觉语言导航自演进世界模型NavMorph

视觉语言导航自演进世界模型NavMorph

机器人视觉语言导航进入R1时代！港大联合上海AI Lab提出全新具身智能框架

量子位· 2025-06-25 08:33

技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作，无需依赖离散地图，能在复杂环境中灵活感知、决策与行动，实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条，直接让LVLM以第一人称视频流为"眼睛"，输出连续导航动作（前进、左转、右转、停止）[5] - 在VLN-CE基准测试中，仅用20亿参数模型就超越了70亿参数模型的SFT结果，在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架：先通过监督微调学习正确动作序列的文本表达，再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法，通过比较多个动作方案的相对优劣来学习最优路径，不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制，对近期动作赋予更高权重，让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集，包含63万R2R和120万RxR训练样本，完全基于第一人称视角，摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略，平衡近期信息与长期记忆，确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型，为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率，在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越，可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢，为具身智能发展提供了新思路[16]