具身智能之心
搜索文档
VLA和VLN技术交流群来啦!
具身智能之心· 2025-08-26 08:03
行业社群动态 - 具身智能之心建立多个VLA和VLN技术交流群 促进学术界与工业界讨论 [1] - 社群聚焦VLA和VLN领域技术发展 产品落地及行业动态交流 [1] - 入群需通过微信AIDriver005添加助理 备注VLA/VLN及昵称信息 [2]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-26 08:03
研究背景与问题定义 - 视觉-语言-动作(VLA)模型在多模态输入和语言指令下表现优异,但缺乏处理虚假前提指令(涉及环境中不存在物体或条件的命令)的机制 [4] - 虚假前提指令在开放真实环境中普遍存在,例如用户命令机器人抓取不存在的红色马克杯,现有研究仅关注指令正确时的执行成功率,未测试指令无法实现时的系统响应 [6] - 机器人领域尚未探索虚假前提指令的识别与纠正,而NLP和跨模态领域已有相关研究基础 [10] IVA框架核心创新 - 提出统一框架IVA(Instruct-Verify-and-Act),实现虚假前提检测、语言纠正和动作预测的端到端能力 [4] - 构建大规模上下文增强的半合成数据集,包含成对的真实前提指令与虚假前提指令,支撑模型训练 [4] - 采用端到端指令微调策略,冻结视觉编码器和语言编码器,仅微调自回归Transformer解码器,并使用LoRA适配器降低计算开销 [20][23] 实验设计与评估结果 - 在9个RLBench任务上评估,每个任务25个episode,物体位置随机变化,输入包含前视摄像头图像和前5个关节位置 [24] - IVA虚假前提检测准确率提升97.56%,虚假前提场景下的成功响应率提升50.78% [5] - 域内虚假前提检测准确率达100%,域外虚假前提检测准确率达97.78%,而基线模型LLARVA检测率均为0% [23][28] - 真实前提任务成功率IVA为42.67%±8.34%,LLARVA为38.67%±8.55%,统计上无显著差异 [28] 性能表现对比 - IVA在全部9个任务的整体成功率和虚假前提检测率均显著优于LLARVA,例如slide block任务整体成功率IVA达96%(LLARVA为44%),sweep to dustpan任务达94%(LLARVA为30%) [25] - 真实前提任务执行性能部分任务略低于基线(如open drawer任务IVA为32% vs LLARVA 40%),但差异可忽略 [25] 应用局限与挑战 - 数据集基于RLBench模拟环境,物体、场景和任务受限,虚假前提分布与真实人类-机器人交互存在差异 [26] - 未验证真实世界泛化性,视觉外观、传感器噪声和语言使用差异可能导致性能下降 [26] - 语言响应仅基于训练数据中的虚假前提类型,缺乏创造性替代方案,且无法处理多轮澄清对话 [26] - 依赖大型多模态模型,存在计算和内存负担,不适用于实时或资源受限的机器人应用 [27]
真实场景也能批量造「险」!VLM+扩散模型打造极限测试
具身智能之心· 2025-08-26 08:03
自动驾驶系统测试现状 - 懂车帝测试显示目前量产自动驾驶系统的NOA功能在黑夜施工工地、高速公路前方车辆事故及障碍物后突然驶出车辆等高危场景中均无法完全避免事故[2] - 此类安全关键场景在真实道路中发生率低但潜在危害大 可能导致严重交通事故[3] - 提升系统可靠性需在多样化高风险场景中进行广泛测试 但现实采集难度极高[4][5] 仿真测试技术挑战 - 现有模拟器画面真实度不足 难以直接用于真实域下端到端系统的极限测试[6] - 安全关键车辆选择依赖简单启发式规则(如选择最近车辆) 缺乏场景关系理解易导致选错目标车辆[9] - 多视角视频生成模型因训练数据缺乏极端场景 在碰撞或近距离互动时生成质量显著下降[9] SafeMVDrive技术创新 - 首创面向真实域的多视角安全关键驾驶视频生成框架 结合VLM关键车辆选择器与两阶段轨迹生成[7] - 采用GRPO微调视觉语言模型 从多视角画面推理交通关系精准识别对抗车辆[10] - 双阶段轨迹生成:先生成符合物理规律的碰撞轨迹 再转化为接近碰撞但成功规避的轨迹[10][22] - 通过三类损失函数(对抗损失/无碰损失/在路损失)确保轨迹合理性与威胁性[22] 系统性能表现 - 碰撞率指标显著优于基线:Sample-level CR达0.097(Origin方法仅0.001) Scene-level CR达0.207(Origin仅0.004)[29] - 视频真实感指标FID为20.626 远优于Naive方法的23.346 更接近真实视频质量[29] - VLM车辆选择器精准度超传统方法:F1-score达0.675(最近车辆法仅0.654 基于规则法仅0.600)[33] - 支持生成加塞/急刹/后方突然加速等危险行为 并呈现自车规避动作[12] 技术实现路径 - 采用UniMLVG作为骨干网络 支持显式控制车辆运动轨迹并保持长时视频稳定[26] - 通过自回归滚动生成方式 将规避轨迹编码为逐帧控制信号(3D边界框/高清地图/相机参数)[26] - 首阶段碰撞轨迹模拟通过test-time loss guidance引导车辆发生有效碰撞[22] - 次阶段仅更新自车轨迹 以无碰损失和在路损失引导实现自然规避[22] 行业应用价值 - 实现高保真多视角安全关键视频批量生成 显著提升极端场景覆盖率[11][28] - 为端到端自动驾驶系统提供兼具真实性及危险性的极限压测数据[11][30] - 研究成果由浙江大学与哈工大(深圳)联合发布 获论文/代码/数据集全方位开源支持[7][9]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-25 14:00
核心观点 - 提出IVA统一框架 使VLA模型能够识别虚假前提指令并生成语言纠正和替代方案 显著提升检测准确率和响应成功率 [4][9][10] - 构建上下文增强的半合成虚假前提数据集 包含域内和域外两种类型 支撑模型端到端训练 [4][18][20] - 实验证明IVA在9个RLBench任务中虚假前提检测准确率高达97.78%-100% 整体成功率提升显著 [5][23][28] 技术框架 - IVA基于LLARVA模型构建 整合视觉编码器 语言编码器和多模态解码器 输出动作序列和视觉轨迹 [13][17] - 采用LoRA适配器进行端到端微调 冻结视觉和语言编码器 仅训练自回归解码器 [20][23] - 输入包含RGB图像和结构化语言指令 输出8维关节速度序列和末端执行器2D轨迹 [17][24] 数据集构建 - 基于RLBench模拟环境构建数据集 包含65%域内虚假前提和20%域外虚假前提 [18][23] - 域内虚假前提涉及几何相似但不存在物体 域外涉及完全不可能存在的物体或场景 [18] - 每个任务包含800个episode 混合真实与虚假前提指令确保数据平衡 [23] 性能表现 - 虚假前提检测准确率提升97.56% 域内达到100% 域外达到97.78% [5][23][28] - 虚假前提场景成功响应率提升50.78% 整体成功率最高达96% [5][25] - 真实前提任务成功率42.67% 与基线38.67%无显著差异 未损害基础能力 [28] 任务评估 - 评估9个RLBench任务 包括打开抽屉 推动按钮 关闭罐子等 每个任务25个随机episode [24] - 采用三阶段评分:检测阶段分类指令可行性 执行阶段判断任务成功 整体计算平均得分 [22] - IVA在slide block任务真实前提成功率92% sweep to dustpan任务88% [25] 局限性 - 数据集基于模拟环境 物体和任务受限 与真实人类-机器人交互存在差距 [26] - 无法处理多轮澄清对话 语言响应缺乏创造性替代方案 [26] - 依赖大型多模态模型 存在计算和内存负担 不适用于实时机器人应用 [27]
VLA/强化学习/VLN方向1v1论文辅导~
具身智能之心· 2025-08-25 14:00
服务内容 - 提供具身智能领域的1对1论文辅导服务,当前有3个VLA、强化学习、Sim2Real方向的名额 [1] - 辅导主要面向A会和B会等顶级学术会议 [1] 目标会议与导师 - 主要针对的学术会议包括CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA等 [1] - 辅导老师活跃在具身智能学术领域,能够提供研究想法 [1] 咨询方式 - 感兴趣者可通过添加指定微信或扫描二维码进行咨询,需备注“具身论文辅导咨询” [2]
Kitchen-R :高层任务规划与低层控制联合评估的移动操作机器人基准
具身智能之心· 2025-08-25 08:04
基准设计背景 - 当前具身AI基准存在显著割裂:高层语言指令遵循类基准假设低层执行完美,低层控制类基准仅依赖简单单步指令,导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白,通过仿真厨房环境统一评估任务规划与低层控制,为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境,支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令,覆盖移动操作任务[8][9] - 提供三种评估模式:独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证,累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图,输出可执行任务计划(如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子")[19] - 移动操作子问题输入单步任务和双相机视觉信息,输出10维轨迹点序列(含底座速度、末端执行器位姿及夹爪开合度)[19] - 导航模块采用Theta*算法进行路径规划,低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机,通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标:任务规划采用精确匹配率(EM),移动操作采用均方误差(MSE),综合指标P融合两者性能[20][21][22] - 在线联合评估指标:实时执行任务时计算EM与成功率(SR),最终合并为指标M,高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准:导航任务要求机器人底座与目标距离≤10cm,操作任务要求物体与目标距离≤5cm,且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型,通过添加上下文计划示例使EM指标从0提升至0.612,约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy,融合双相机视觉特征和10维机器人状态,通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比:oracle政策单episode耗时约1分钟,而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加:通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集:包括RGB-D图像和点云数据,传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作,通过配置文件定义关键点位和物体列表[42]
一文尽览!2025年多篇VLA与RL融合的突破方向
具身智能之心· 2025-08-25 08:04
视觉-语言-动作模型与强化学习融合研究进展 - 2025年机器人具身智能领域聚焦视觉-语言-动作模型与强化学习的融合 旨在解决真实场景中决策与执行精度问题 相关研究在ICLR、RSS、ICRA、CVPR等顶会集中收录[2] GRAPE模型创新 - 通过轨迹级VLA对齐和任务阶段分解提升模型泛化能力 解决行为克隆依赖导致的未见任务适应性问题[4][5] - 采用可定制时空约束的偏好建模 支持根据安全、效率等目标灵活调整策略[5] - 在现实世界与模拟环境中 域内操作任务成功率提升51.79% 未见任务成功率提升58.20% 安全性目标下碰撞率降低37.44% 效率目标下启动步长减少11.15%[7] VLA-RL框架突破 - 构建轨迹级强化学习表达式 将操作轨迹转化为多模态对话形式 优化在线数据利用[10][12] - 微调预训练视觉语言模型作为机器人过程奖励模型 解决稀疏奖励问题[12] - 在LIBERO平台40个任务中性能超越OpenVLA-7B基线 并显现推理扩展规律迹象[14] ReWiND框架优势 - 通过预训练语言基奖励函数和策略 实现少样本微调适配新任务 无需重复设计奖励或演示[17][18] - 奖励模型泛化能力达基准方法2.4倍 新任务适应效率在模拟环境中快2倍 真实世界场景下双手动策略性能提升5倍[20] ConRFT强化微调方法 - 采用离线行为克隆与Q学习结合在线一致性策略的两阶段训练 提升训练稳定性[23][25] - 在八项实际操作任务中平均成功率达96.3% 较监督学习方法提升144% 回合长度缩短1.9倍[28] RLDG数据优化策略 - 利用强化学习生成高质量训练数据微调通用策略 改善动作分布与状态覆盖[32][35] - 在精确操作任务中成功率最高提升40% 泛化能力优于人类演示训练策略[38] TGRPO在线优化方案 - 融合步骤级与轨迹级优势信号优化组级估计 增强在线强化学习训练适配性[38][41] - 在十个操作任务中性能超越监督微调与PPO基线 生成策略更稳健高效[43] iRe-VLAd迭代训练框架 - 通过强化学习与监督学习循环迭代解决训练不稳定与计算负担问题[44][46][48] - 在模拟基准和真实操作套件中验证有效性 实现交互场景下性能优化[50] RIPT-VLA后训练模式 - 基于稀疏二进制成功奖励进行交互式后训练 适配低数据环境[51][52][54] - 轻量级QueST模型成功率提升21.2% OpenVLA-OFT模型达97.5%成功率 仅需1次演示即可在15次迭代内实现97%成功率[56] 行业应用与趋势 - 研究聚焦机器人操控、导航中的策略泛化、动态环境适应及多模态信息对齐问题 覆盖家居家务、工业装配、机械臂操控等高频场景[57] - 部分研究开放项目代码 推动前沿技术落地应用[57]
3个月!完成你的具身大脑+小脑算法学习
具身智能之心· 2025-08-25 08:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 具身智能的核心模块由大脑和小脑构成 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度运动执行)[1] 国内外产业布局 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段(2023年起)采用Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化[6][7] - 第四阶段(2025年起)探索VLA模型与强化学习、世界模型、触觉感知等模块融合 提升长时任务试错能力与环境动态预测能力[8] 技术发展特征 - 从抓取位姿检测到行为克隆、扩散策略与VLA模型的演进 体现"低层感知->中层策略->高层理解"的能力补齐路径[9] - VLA+强化学习结合提升机器人试错能力与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息拓展多模态融合感知边界[8] - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[9] 工程化需求 - 产业界推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[12] - 需要在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试[12] - 需要训练并部署Diffusion Policy/VLA/力触融合的VLA模型[12] - 需要实现强化学习在VLA后训练上的应用 支持机器人反馈微调[12] - 需要实现从世界建模预测→策略学习→物理执行的一体化具身智能架构[12]
浙大具身智能VLN+VLA统一框架:ODYSSEY
具身智能之心· 2025-08-25 08:04
ODYSSEY框架核心创新 - 提出分层视觉-语言规划器 将基于自我中心感知的长期指令分解为可执行动作 弥合自我中心感知与语言任务间差距 [4] - 设计首个适用于复杂地形的四足机器人全身控制策略 协调运动和操作 实现从模拟到现实的有效迁移 [4] - 构建首个长期移动操作基准测试 覆盖广泛现实世界室内外场景 提供语义推理/任务规划/导航/操作能力全面测试平台 [4] - 实现模拟到现实迁移 现实部署展现强大泛化能力和鲁棒性 验证非结构化环境部署可行性 [4] 研究背景与动机 - 移动操作在动态非结构化环境中至关重要 需结合移动性/操作/实时感知实现复杂任务如微妙调整位置抓取物体 [5] - 现有研究局限:大型语言模型多局限于桌面场景 未解决移动平台感知受限和执行器范围有限问题 [5] - 开放世界环境中操作策略泛化能力不足 非结构化环境中高平台机动性与精确末端执行器控制的双重需求研究不足 [5] - 研究动机为解决上述局限 提出统一移动操作框架实现四足机器人开放世界长期任务执行 [5] 技术架构设计 - 全身控制策略定义为单一网络 将观测向量映射到目标动作 观测包括运动指令/末端执行器目标/局部地面高度图/重力向量等 [9] - 输出动作为默认关节配置偏移量 通过PD控制器转换为扭矩 [9] - 全局规划器融合RGB和LiDAR流构建空-语义表示 利用预训练基础模型映射实例图 [10] - GPT-4.1分解自然语言指令为原子动作 输出粗略目标航路点 投影到2D占用图生成无碰撞目标姿态 [10] - Qwen2.5-VL-72B-Instruct根据RGB观测推断任务相关接触点 投影到深度图像恢复3D位置 根据几何约束确定末端执行器朝向 [10] 训练方法 - 采用两阶段训练:第一阶段固定机械臂关节训练静态负载运动 引入步态奖励和频率奖励改善探索效率 [11] - 第二阶段控制所有18个关节 扩展奖励函数包括末端执行器跟踪项 采用地形不变采样策略提高交互精度 [11] - 全程运用领域随机化增强不同负载适应性 [11] 基准测试构建 - 资产库包含50个刚体物体/15个容器/30个关节结构/10个可拖动物体 [20] - 10个真实场景涵盖室内家居/超市/餐厅/室外庭院等 [20] - 从物体布局/物理属性/环境条件/地形复杂性四维度引入变化确保泛化能力 [20] - 多阶段任务套件包括短期操作技能和长期移动操作任务 长期任务由2-3个子目标组成 共246个室内和58个室外变化 [20] - 模块化评估协议同时评估整体任务成功率和每个动作成功率 [20] 性能评估结果 - 短期任务评估显示在所有数据集实现显著改进 仅依赖单个自我中心摄像头下优于PerAct的精细操作能力 [17] - 在未见数据集上性能保持稳定 PerAct性能急剧下降 表明具备处理未见物体配置的泛化能力 [17] - 长期任务评估涵盖8个移动操作任务 整体成功率均达40%以上 原子技能成功率保持60%以上 [19][29] - 导航成功率表现优异:室内导航成功率97.4%-98.4% 室外导航成功率95.6% [19] - 抓取成功率72.7%-85.0% 放置成功率76.5%-96.8% 推/拉操作成功率71.0%-94.1% [19] 模拟到现实迁移 - 使用Unitree Go2四足机器人和Arx5机械臂构建平台 配备MID-360 LiDAR定位和D435i/D405 RealSense相机 [36] - 现实世界测试两个长期任务("导航到抓取"和"抓取和放置") 使用五种不同物体 [36] - 成功实现任务规划和执行从模拟到现实的迁移 [37] - 存在模拟到现实差距:抓取小物体时因末端执行器跟踪和视觉感知不准确导致失败 [37] 未来发展方向 - 将基准测试扩展为全面评估范式 评估视觉-语言模型和移动操作器的跨体现语义推理和运动-操作协调能力 [38] - 探索主动感知新兴能力 使动态场景理解和自适应运动协同作用 实现更有效现实世界交互 [38] - 解决杂乱非结构化环境中新行为 进一步弥合高层规划和低层控制间差距 [38]