Workflow
具身智能之心
icon
搜索文档
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 大规模数据集(如Open X-Embodiment/OXE)训练的通用机器人策略在分布范围内表现良好,但泛化能力受限 [2] - 泛化受限的根本原因是捷径学习,即模型过度依赖与任务无关的特征 [2] - 捷径学习由两个关键因素导致:单个子数据集内部多样性有限,以及子数据集间存在显著分布差异(数据集碎片化) [2] 数据集结构分析 - OXE等大规模数据集由多个独立收集的子数据集构成,这些子数据集来自不同环境和机器人形态 [2] - 这种固有结构导致数据集内部多样性不足和碎片化问题 [2] 解决方案与实证发现 - 通过精心选择的数据增强策略可有效减少现有离线数据集中的捷径学习 [2] - 数据增强方法能提升通用机器人策略在仿真和真实环境中的泛化能力 [2] - 研究结果为改进机器人数据集收集策略提供了重要见解 [2] 研究应用与延伸 - 研究成果适用于视觉语言动作模型(VLA),当前VLA的泛化能力十分有限 [5] - 针对OXE数据集的深入分析为数据收集提供了指导方针 [5] - 研究涉及真实场景下的机器人导航和运动控制(real2sim2real)以及真机性能提升(如32%的性能提升)等应用方向 [7]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 08:03
研究背景与动机 - 3DGS技术在动态场景建模中存在精度不足问题 常导致渲染图像出现伪影 [1] - 高斯致密化过程具有双重作用机制:既增强场景细节表达 又促使模型过早拟合动态区域导致伪影和场景失真 [4] - 传统致密化策略存在依赖性风险 细节提升可能以牺牲静态区域重建质量为代价 [4] 核心技术方案 - 首创延迟高斯生长策略:在允许高斯分裂/克隆前优先优化静态场景结构 减少优化初期对动态物体的过拟合 [1][6] - 设计尺度级联掩码引导方法:先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计 再逐步过渡到高分辨率监督实现精准掩码预测 [1][14] - 采用含两层线性层的MLP作为掩码估计网络 以DINOv2特征为输入 因其在语义一致性和抗噪性方面表现优异 [9][10] - 掩码学习总损失结合图像残差损失和特征余弦相似度损失 增强语义级动态区域识别能力 [10][13] 实验效果 - 在NeRF On-the-go和RobustNeRF数据集上 相比3DGS、SpotLessSplats、WildGaussians等基线方法 PSNR、SSIM、LPIPS等指标全面领先 [16][20] - 能处理含多样瞬态物体的复杂场景并保留细节 有效减少瞬态物体导致的渲染伪影 [19][20] 技术价值 - 通过调节致密化过程引入时机 有效平衡静态结构表达与动态干扰抑制 [6] - 推动在复杂场景中实现鲁棒、细节丰富的3D场景重建 [6][20]
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 具身智能发展推动机器人成为日常助手 要求机器人具备高层指令解读 动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力 成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限:交互式探索能力不足 感知精度有限 计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括:场景感知模块提取目标中心空间关系图 双阶段规划器生成探索和完成阶段子目标 执行验证器生成反馈 规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示:节点标注物体语义属性 有向边表示物体间空间关系 [8] - 构建流程分两步:GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成":探索阶段生成探索子目标及动作 完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划 解决LLM幻觉问题:验证目标有效性 检查动作逻辑一致性 处理障碍物 [10][12] - 执行验证器采用逐步验证机制:判断动作是否成功 验证子目标是否达成 若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行 设计5个递增复杂度任务 [15] - 平均成功率:ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率:Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降:无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度 准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境 通过探索准确定位目标 [21] - 自反思修正逻辑错误 避免不合理动作序列 [21] - 逐步验证增强抗噪声能力 及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合 适应性有限 [22] - VILA直接用GPT-4V生成计划 但缺乏结构化感知 探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈 误差易累积 [22] - RoboExp需依赖先验物体知识 探索步骤冗余 [22]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
一个集视频 /图文/学习路线/问答/求职交流为一体的具身社区
具身智能之心· 2025-08-19 09:54
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频 图文 学习路线 问答 求职交流为一体 目前近2000人 目标2年内达到近万人规模 [1][3] - 社区成员覆盖斯坦福大学 加州大学 清华大学 西湖大学 上海交大 智元机器人 有鹿机器人 优必选等40余家顶尖高校和头部企业 [17] 技术资源体系 - 汇总40+开源项目 60+具身智能数据集 行业主流仿真平台及20余种技术学习路线 包括具身感知 强化学习 VLA 多模态大模型等方向 [17][18] - 整理近30+技术路线 涵盖benchmark 综述 入门指南 并邀请数十位产业界与工业界嘉宾提供一线指导 [4][9] - 提供机器人导航 概率机器人 动力学与运动学等基础学习书籍 以及ToF相机 数据采集方案 触觉感知等专项技术资源 [28][34][36] 行业研究内容 - 汇总国内外具身智能高校实验室与公司 涉及教育 宠物 工业 救援 物流 交互 医疗等多个领域 [20][23] - 整合IFR-2024世界机器人报告 GTC大会 2024中国具身智能创投报告等10余份行业研报 跟踪技术发展与商业化进展 [25][27] - 梳理机器人零部件制造厂商 包括芯片 激光雷达 相机 IMU等核心部件品牌信息 [30] 社区活动与服务 - 每周举办圆桌论坛与直播 覆盖灵巧手 agent 数采 具身本体等主题 并计划拓展具身大脑+小脑算法技术分享 [1][4] - 建立岗位内推机制 与多家具身公司合作 提供求职对接服务 第一时间推送招聘岗位 [11][21] - 社区内实时解答技术问题 包括设备使用 数据采集 VLA模型部署等实操性难题 [1][3] 成员互动案例 - 为研一学生提供实习建议 推荐Isaac Sim仿真项目 指导项目问题总结与解决方案 [77] - 指导自动驾驶VSLAM工程师转向视觉语言导航或DL-based SLAM方向 利用现有技术栈平滑过渡 [78] - 为研三SLAM方向学生提供职业规划建议 分析智驾与具身行业薪资差异及转方向可行性 [80][81][84]
足球还是靠机器人吧!首届机器人运动会闭幕:票价终究保守了
具身智能之心· 2025-08-19 09:54
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 男篮亚洲杯中国队1分憾负澳大利亚,但另一边绿茵场上,中国机器人传来好消息: 1-0战胜人形机器人版德国战车,再次将世界冠军收入囊中。 获得胜利的是清华火神队。 只见身穿红色队服的火神队1号一脚大力抽射,足球命中德国队球员坚硬的后脚跟,直接回弹入网! 这一波啊,其实战术是翻袋(doge)。 一记乌龙球,奠定这场5v5机器人足球赛最终的胜负之势。而这样的让观众们一边鼓掌欢呼一边忍俊不禁的场面,亦是本届 世界人形机器人运 动会 的小小缩影。 怎么说?值此闭幕之际,一起来复盘一波机器人冠军们的 鬼畜 名场面吧~ 名场面,够帅也够鬼畜 首先来看宇树7块金牌之一的100米障碍赛。 G1跨栏动作一出,现场欢呼声之巨,毫不逊于人类运动会。 最终,宇树以 33.71秒 的成绩拿下这项比赛的冠军。 但其实嘛,是有机会更快的,如果不是…… 画面转到自由搏击赛场,决赛选手这架势确实帅气,看后边蓝衣服大哥的反应就知 ...
哈工深提出UAV-ON:开放世界空中智能体目标导向导航基准测试
具身智能之心· 2025-08-19 09:54
研究背景 - 提出首个大规模开放世界环境中基于语义目标指令的无人机目标导航基准UAV-ON,定义超过11000个导航任务,涵盖14个高保真户外场景 [2] - 现有无人机导航研究多依赖视觉语言导航(VLN)范式,限制其在开放世界环境中的可扩展性和自主性 [2] - 目标导航(ObjectNav)仅基于语义线索定位目标物体,但在大规模非结构化户外环境中的空中导航潜力尚未充分探索 [2] 任务定义 - UAV-ON定义开放世界环境中的实例级目标导航任务,无人机需根据语义指令导航到目标物体 [5] - 任务要求无人机在复杂真实环境中执行离散参数化动作,处理障碍物规避和碰撞动力学等现实挑战 [2] 环境感知与动作空间 - 无人机配备多视角RGB-D相机(前方、左方、右方和下方),获取多模态观测,不依赖全局定位信号如GPS [7] - 动作空间采用参数化设计,包括平移(前进、左移、右移、上升、下降)、旋转(左转、右转)和停止 [7][14] - 动作物理执行并需通过碰撞检测,任何与障碍物接触视为失败 [14] UAV-ON基准 - 包含14个高保真户外环境,涵盖村庄、城镇、城市、公园等多样化景观 [12] - 目标物体放置采用基于提示的对象映射策略,利用大型语言模型生成候选物体并手动筛选 [12] - 场景水平尺度从350×250到1400×1250单位,共放置1270个目标物体,覆盖约900万平方单位区域 [15] 数据集分析 - 训练集使用10个环境生成10000个导航episode,测试集包含1000个episode分布在10个训练环境和4个额外环境 [15] - 评估指标包括成功率(SR)、Oracle成功率(OSR)、成功距离(DTS)和路径长度加权成功率(SPL) [15] 基线方法与实验结果 - 基线方法包括随机策略(Random)、基于CLIP的启发式探索(CLIP-H)和空中目标导航智能体(AOA) [15] - AOA-V在Oracle成功率(OSR)上表现最佳,但成功率(SR)和SPL较低 [16] - AOA-F在成功率(SR)和SPL上表现更一致,但探索范围略逊于AOA-V [17] - CLIP-H在SPL上表现较好,但对语义目标理解有限 [17] - 随机策略在所有指标上表现最差 [17] 终止行为与安全导航 - AOA-V探索能力强但停止动作不稳定,AOA-F运动和停止动作较平衡但接近障碍物时易失败 [20] - CLIP-H停止动作可靠性高但探索不够积极,随机策略无目标意图表现最差 [20] - 所有方法碰撞率超过30%,与现实世界无人机安全运行要求存在显著差距 [20] 结论与未来工作 - UAV-ON验证了语义推理、障碍物感知探索和目标定位的复合挑战 [24] - 需开发更安全可靠的控制策略以满足复杂环境中无人机自主运行需求 [24]
2025世界人形机器人运动会:从赛场到市场,优理奇机器人两金一银背后的商业化布局
具身智能之心· 2025-08-18 19:32
赛事概况 - 2025年世界人形机器人运动会于8月17日闭幕,包含26个赛项和487场竞技对决[1] - 世界人形机器人运动联合会(WHRGF)正式成立,第二届赛事将于2026年8月在北京举办[1] - 宇树科技以11枚奖牌(4金3银4铜)位居奖牌榜首位,北京人形以10枚奖牌(2金6银2铜)位列第二[2] - 优理奇科技(UniX AI)以2金1银共3枚奖牌位列总奖牌榜第三名[3] 优理奇科技赛事表现 - 在酒店迎宾服务和酒店清洁服务两个赛项中获得金牌,酒店清洁服务获得银牌[3] - 采用Wanda系列通用人形机器人参赛,具备长序列推理能力和全自主完成能力[10] - 在严苛赛制下(360°无死角评测、全程自主执行)成功完成长序列任务[9] 技术优势 - 自研三位一体算法:UniFlex(可泛化模仿学习框架)、UniTouch(全球首个融合触觉的多模态感知模型)、UniCortex(长程任务规划推理架构)[12] - 硬件创新:自主研发8自由度机械臂(超越人类手臂7自由度设计)、轻量化大扭矩关节模组[13] - 机械臂重复定位精度高、响应速度快,支持复杂空间路径规划和末端姿态控制[13] - Wanda机器人热身两天即实现泛化抗干扰,适应现场光照变化和人物干扰[10] 商业化进展 - 轮式双臂机器人于2025年2月开始量产交付,在商业/安保/娱乐/服务及C端完成超千万元订单和数百万回款[15] - 已正式上线京东平台,入门版本售价8.8万元,配置京东大模型版本售价9.9万元[21][22] - 与酒店集团、物业公司、养老社区等B端合作伙伴拓展合作[21] 应用场景 - 酒店服务:可完成迎宾引导、清洁整理等全流程服务,无需额外硬件改造[17] - 养老服务:具备算法和力控优势,可完成家务型任务并提供老人陪伴与基础照护[19] - 未来可能扩展至零售、教育、医疗和工业运维等领域[24] 团队与研发 - 2024年4月组建团队,拥有50余位全球顶尖研发人员(发表400余篇顶会论文)和20余位行业领军者[15] - 创始人杨丰瑜为耶鲁大学博士,全球首个触觉融合多模态大模型UniTouch第一作者[15] - 首席科学家王贺升为上海交大电气学院副院长、国家杰青,机器人领域顶尖专家[15] - 已开发两代轮式双臂机器人Wanda和双足灵巧手版本机器人Martian[15]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-18 14:00
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [1] - 目标会议涵盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [1] - 辅导老师具备具身学术领域活跃研究经验 能够提供创新性研究思路 [1] 服务咨询方式 - 可通过添加微信oooops-life进行咨询 [2] - 支持扫码直接联系 需备注"具身论文辅导咨询" [2]
近2000人了,这个具身智能社区竟然私藏了这么多东西......
具身智能之心· 2025-08-18 14:00
社区规模与定位 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前成员近2000人 目标未来2年内达到近万人规模 [1][3][18] - 社区成员覆盖国内外知名高校和头部企业 高校包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大等 企业包括智元机器人、有鹿机器人、优必选、小米、逐际动力等 [18] 技术内容体系 - 汇总40+开源项目、60+具身智能数据集、行业主流仿真平台及技术学习路线 [18] - 覆盖30+技术路线 包括具身感知、强化学习、VLA模型、Diffusion Policy、多模态大模型、机器人导航等 [4][18][42][46][48][54][56] - 提供具体技术解决方案 包括数据采集、模型部署、sim2real、分层决策、机械臂抓取等 [1][8][69] 行业资源整合 - 汇总国内外具身智能高校实验室和机器人公司 涉及教育、工业、医疗、物流等多个领域 [21][23] - 整合行业研报、机器人书籍、零部件品牌(芯片、激光雷达、相机等)、ToF与3D相机资源 [25][28][30][34] - 建立企业内推机制 与多家具身公司合作提供岗位对接 [10][19] 社区活动与服务 - 定期举办圆桌论坛和直播 主题涵盖本体、数据、算法等前沿技术 [1][4][74] - 提供个性化问题解答 包括设备使用、数据采集、项目部署、研究方向选择等 [1][77][79][80][82] - 为不同阶段成员提供支持 包括小白入门技术栈、产业项目方案、学术与工业进展同步 [13][15][19] 典型用户案例 - 自动驾驶SLAM工程师寻求向具身智能转型 建议关注视觉语言导航和深度学习化SLAM方向 [80] - 研三学生面临职业选择 社区提供具身感知、强化学习等技术转型路径及行业窗口期分析 [82][83] - 研一学生寻求仿真环境项目建议 社区推荐Isaac Sim框架及项目问题解决经验包装 [79]