具身智能之心
搜索文档
英伟达为机器人推出懂推理的“大脑”!升级版Cosmos世界模型来了
具身智能之心· 2025-08-14 08:03
英伟达机器人领域布局 - 英伟达在SIGGRAPH大会上发布全新升级的Cosmos世界模型,聚焦机器人领域[2][4] - Cosmos用于生成符合现实物理规律的合成数据,已被Figure、Agility Robotics、通用汽车等公司采用[3] - 升级重点包括规划能力和生成速度两方面,同时配套更新Omniverse库、RTX PRO Blackwell服务器和DGX Cloud云平台[4] Cosmos模型升级细节 - 推出70亿参数视觉语言模型Cosmos Reason,具备物理理解和多步推理能力,可作为机器人"大脑"[6][9][10] - 新增Cosmos Transfer-2及其精简版,加速虚拟场景到训练数据的转换,精简版将70步蒸馏简化为1步[6][12][13] - 配套发布Omniverse新库与SDK,支持三维重建、仿真及跨平台数据互通[13] 硬件基础设施升级 - 推出RTX PRO Blackwell服务器,覆盖训练、数据生成、机器人学习等工作负载[16] - DGX Cloud云平台已上线微软云市场,降低大规模仿真与训练的硬件门槛[16] - 硬件升级旨在配合软件模型,形成完整的机器人开发基础设施[16] 战略布局与行业影响 - 英伟达认为计算机图形与AI融合将改变机器人领域,构建"虚拟平行宇宙"让机器人安全试验[17][20][22] - 目标是通过虚拟环境降低机器人训练成本,加速落地应用[21][22] - 在中国市场与银河通用、阿里云、优必选等企业达成深度合作,推动机器人技术商业化[26][27] 技术整合优势 - 结合实时渲染、计算机视觉、物理运动模拟及生成式AI技术打造虚拟训练环境[23] - Omniverse负责三维仿真环境,Cosmos提供物理AI模型,形成黄金搭档[14] - 技术整合可生成更精确、更大规模的机器人训练数据[14]
保持精度,提升速度!Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心· 2025-08-14 08:03
视觉-语言-动作(VLA)模型加速技术 - 视觉-语言-动作(VLA)模型依托视觉语言模型(VLMs)的强大能力取得显著进展,但VLMs庞大的参数规模和自回归解码特性带来较大计算负担 [2] - 投机解码(SD)技术通过高效的草稿生成与并行验证,能在单次前向传播中生成多个token,从而加速大型语言模型(LLMs)推理,但该技术在VLA模型中的应用尚未被探索 [2] Spec-VLA框架创新 - 提出首个专为VLA推理加速设计的SD框架Spec-VLA,针对动作预测任务难度和贪婪解码机制,设计宽松接受机制提升生成速度 [2] - 多场景测试表明,Spec-VLA框架能将接受长度提升44%,相比OpenVLA基线模型实现1.42倍速度提升,且不降低任务成功率 [2] - 该框架无需微调VLA验证模型,仅需训练草稿模型即可对OpenVLA框架实现42%加速 [6] 技术应用与潜力 - Spec-VLA框架的成功凸显了投机执行在VLA预测场景中更广泛应用的潜力 [2] - 相关技术包括推测解码方法、VLA模型介绍以及Spec-VLA框架的实现细节 [7] 行业动态与活动 - 直播活动聚焦推测解码技术在大语言模型加速中的应用,以及Spec-VLA框架的具体实现 [6][7] - 行业其他技术进展包括VR-Robo真实场景机器人导航、CVPR冠军方案BridgeVLA真机性能提升32%等 [9]
想做具身方向,师兄建议我去这里......
具身智能之心· 2025-08-14 08:03
具身智能社区概况 - 国内首个具身全栈技术社区"具身智能之心知识星球"已完成产业、学术、求职、问答等多领域闭环,成员来自斯坦福大学、清华大学、ETH等顶尖高校及智元机器人、优必选等头部企业[17] - 社区提供近40+开源项目、60+数据集、30+技术路线及主流仿真平台资源,覆盖感知学习、强化学习、多模态大模型等16个技术方向[17] - 已建立企业内推机制,与智元机器人、傅里叶机器人等公司合作输送人才,首批学员获头部公司offer并开始实习[1][11] 技术资源体系 - 汇总30家具身机器人公司资料,涉及教育、医疗、工业等7大应用场景,包含零部件厂商芯片/激光雷达等供应链信息[22][27] - 整理60+数据集涵盖触觉感知、视觉语言导航等9大领域,40+开源项目覆盖仿真、抓取、控制等6大模块[17][30] - 技术路线包含Diffusion Policy、VLA+RL等24个前沿方向,提供强化学习全栈、多模态大模型等系统学习路径[17][31][32] 行业动态与人才发展 - 具身智能行业处于探索期,技术路径向大模型/端到端迁移,自动驾驶领域人才正逐步转向该领域[47][49] - 薪资水平显示:具身智能岗位薪资较传统SLAM岗位高出6k/月,头部初创公司1-2年经验总包达70-80万[48][49] - 职业转型建议:视觉SLAM从业者可转向视觉语言导航或DL-based SLAM,需补充Transformer等深度学习基础[47][49] 社区运营模式 - 采用"问题驱动"机制,实时解决设备使用、数据采集等实操问题,案例响应速度达项目级应用[1] - 组织圆桌论坛/直播活动50+场,邀请产业界嘉宾分享本体设计、算法优化等实战经验[4][43] - 建立分层学习体系:小白可获取入门技术栈,进阶者接触产业级项目方案,高阶成员参与前沿课题研讨[14][15][17] 技术热点聚焦 - VLA+RL融合方向受重点关注,社区汇总相关训练方案及在抓取规划任务中的应用案例[3][31] - sim2real技术瓶颈突破方案受关注,社区提供real2sim2real等创新方法解析[3][41] - 多模态大模型应用最活跃,细分12个子领域包括Many-to-Many跨模态生成等前沿方向[36][37]
端到端模型!GraphCoT-VLA:面向模糊指令的操作任务的VLA模型
具身智能之心· 2025-08-13 08:04
领域介绍 - 视觉-语言-动作(VLA)模型正成为机器人领域的核心范式,旨在实现自然高效的人机交互 [5] - 现有VLA模型基于预训练视觉-语言模型(VLMs)构建,利用其强大的视觉接地和语言理解能力 [5] - 当前模型依赖清晰结构化指令,难以处理现实场景中的模糊指令(如"我想吃辣味河鲜") [6] 技术挑战 - 现有模型无法关联多模态感知与上下文,导致动作规划脱离真实环境 [8] - 观测模态局限在静态二维视图,缺乏对三维交互的建模能力 [8] - 思维链(CoT)方法存在情境感知有限、无法处理模糊指令等缺陷 [8] 解决方案 - 提出GraphCoT-VLA模型,整合结构化CoT推理与实时3D姿态-物体图 [9] - 结构化CoT模块包含:高层任务理解与规划、失败任务反馈、低层未来想象推理 [3] - 姿态-物体图实时捕捉机器人关节配置与物体三维拓扑关系 [13] - 采用dropout混合推理策略平衡深度推理与实时控制需求 [15] 模型架构 - 姿态-物体图构建:通过YOLO-World检测物体,结合深度信息投影为三维点,与机器人末端执行器形成全连接图 [13] - 图编码器使用两层GNN处理空间关系,输出节点特征输入VLM [17][18] - CoT推理流程:场景理解→可行性分析→反馈生成→未来预测(间隔ΔT帧) [19][20] - 整体框架整合多视角图像、本体感受、语言指令和图数据,输出动作序列分布 [22][23] 训练策略 - CoT监督采用交叉熵损失,动作优化采用条件流匹配损失 [24][26] - 联合训练引入CoT监督dropout(概率p),支持推理引导与直接预测双模式 [27][28] - 推理时混合策略:首帧生成完整CoT,后续帧跳过推理直接预测动作 [28] 实验结果 - 在"食物准备"任务中成功率比最优基线Octo提升10%,"服装选择"任务比π₀提升18.33% [37] - 姿态-物体图使成功率最高提升18.33%,动作更连贯自然 [40] - CoT模块显著增强模糊指令下的任务规划能力,减少动作不足或持续挥舞等问题 [41] - 推理频率保持10Hz,与基线π₀相当,满足实时控制需求 [44][45] 技术验证 - 姿态-物体图可视化显示其有效编码机器人与物体的空间配置 [42] - CoT能根据环境变化动态调整决策,预测物体位置与实际高度匹配 [43] - 在双臂机器人上验证,涉及600个训练演示和20次/任务的测试协议 [29][36]
近2000人了!这个具身社区偷偷做了这么多事情了......
具身智能之心· 2025-08-13 08:04
具身智能社区概述 - 社区定位为国内首个具身全栈技术交流平台,聚焦学术与工程问题,成员来自斯坦福大学、清华大学等顶尖高校及智元机器人、优必选等头部企业[13][14] - 已形成产业、学术、求职、问答的闭环生态,日均运营复盘优化社区内容[1] - 核心目标是缩短技术检索时间,提供从入门到进阶的全链条资源[14] 核心资源体系 学术与产业资源 - 汇总40+开源项目、60+具身数据集及主流仿真平台[14] - 梳理30+技术路线,覆盖强化学习、多模态大模型、机械臂控制等24个细分方向[14][41][43][45] - 收录近30家国内外具身机器人公司资料,涉及教育、医疗等应用领域[21] 人才发展支持 - 建立与智元机器人等企业的内推机制,直接对接招聘需求[6] - 提供职业路径规划,包括实习项目包装建议(如Isaac Sim仿真项目)[74][75] - 汇总国内外50+高校实验室信息,助力升学与科研发展[19] 技术内容矩阵 学习体系 - 入门者可通过技术栈路线(如Diffusion Policy学习路线)快速上手[57][7] - 进阶者获取产业级项目方案与VLA模型等前沿技术资料[9][55] - 配套50+机器人专业书籍与行业研报,覆盖动力学、导航等基础领域[24][27] 行业动态追踪 - 实时更新具身智能在自动驾驶迁移、大模型部署等领域的融合应用案例[77][81] - 分析技术趋势:传统SLAM向端到端导航演进,Transformer架构逐步渗透[77][79] - 跟踪零部件供应链,汇总芯片、激光雷达等关键设备厂商信息[29][33] 社区运营特色 - 定期举办圆桌论坛,邀请产业界嘉宾解析算法落地挑战[2] - 成员可自由提问,获得职业转型建议(如SLAM从业者转向具身感知的路径)[78][80] - 提供仿真平台对比数据与触觉感知等多模态技术集成方案[37][47]
VLA还是VTLA?这家企业用“超人类触觉”技术颠覆机器人未来!
具身智能之心· 2025-08-13 08:04
行业现状与技术瓶颈 - 具身机器人硬件和技术相比去年有较大提升,但感知大脑落后于硬件 [1] - 端到端VLA模型是行业关注重点,但视觉在物理交互中存在材质、硬度、摩擦力感知不足的问题 [1] - 触觉感知可弥补视觉缺陷,VTLA(视觉-触觉-语言-动作)被认为是下一代端到端模型范式 [1] - 触觉传感器行业存在分辨率低、实时性差、耐用性不足等技术瓶颈 [2][3] 公司技术与产品突破 - 戴盟机器人研发出基于单色光的高分辨率视触觉感知技术,通过光学变化生成触觉"图像" [4] - 核心产品DM-Tac W是全球首款多维高分辨率高频率视触觉传感器,每平方厘米覆盖4万个感知单元,远超人类手指的240个和传统传感器的数百倍 [4] - 推出多维触觉灵巧手DM-Hand1,集成毫米级超薄视触觉传感器,提升灵活性和感知能力 [6] - 产品通过500万次按压测试,获欧盟CE和美国FCC双认证,实现千片级规模量产 [9] 融资与商业化进展 - 完成亿元级天使++轮融资,三轮融资总额达数亿元,刷新全球触觉感知领域天使轮融资纪录 [3] - 融资资金将用于推动高分辨率视触觉感知技术和灵巧操作技术的产业化落地 [3] - 在世界机器人大会(WRC)展示核心产品,与京东联合展示真实应用场景 [8] 应用场景与行业影响 - 技术可应用于工业装配、医疗手术、家庭服务等需要高精度任务的场景 [1] - DM-Hand1能为工业制造、医疗康复等领域提供全新解决方案 [6] - 产品已从"样机时代"迈向"规模部署时代",推动触觉传感技术商业化应用 [9] - 公司致力于构建覆盖感知、操作、学习的完整产品生态,助力行业进入触觉智能新纪元 [10]
AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
具身智能之心· 2025-08-13 08:04
4D空间智能重建技术综述 - 4D空间智能重建是计算机视觉领域的核心挑战,目标是从视觉数据中还原三维空间的动态演化过程,通过整合静态场景结构与时空动态变化,构建具有时间维度的空间表征系统,在虚拟现实、数字孪生和智能交互等领域展现出关键价值[1] - 当前研究围绕两大技术维度展开:基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取;高阶理解层面致力于解析场景组件的时空关联与物理约束[1] - 前沿研究正从单纯的几何重建转向对场景物理属性和交互逻辑的建模,使得空间智能不仅能呈现视觉真实的动态场景,更能支撑智能体与虚拟环境的拟真交互[1] 研究背景与方法论 - 南洋理工大学S-Lab、香港科技大学以及德州农工大学的研究者撰写了综述论文,对400余篇代表性论文进行了系统归纳和分析,填补了关于4D空间智能重建分析的空白[2] - 提出新的分析视角,将已有方法按照空间智能的建构深度划分为五个递进的层次:从底层三维属性重建到引入物理规律的重建[4] 第一层:底层三维属性重建 - 聚焦四大核心要素:深度感知、相机定位、点云构建与动态跟踪,这些基础组件共同构成三维空间的数字化骨架[6] - 传统方法分解为多个独立子任务,如关键点检测与匹配、鲁棒估计、运动恢复结构、光束法平差以及多视图立体匹配[6] - 近年来,DUSt3R等系列工作提出联合优化策略实现更高效协同推理,基于Transformer的VGGT框架实现端到端快速重建,可在秒级内完成底层3D线索估计[6] 第二层:三维场景组成要素重建 - 研究重点转向场景中具体对象的精细化建模,包括人物、各类物体以及建筑结构等元素的几何重建,但对它们之间的动态交互关系仍缺乏有效建模[8] - 随着NeRF神经辐射场、3D高斯点云表示以及可变形网格等创新技术的突破性进展,已能够实现具有高度真实感的细节还原和整体结构保持,为影视特效制作、虚拟现实等应用场景提供关键技术支撑[8] 第三层:完整4D动态场景重建 - 致力于突破静态场景限制,通过引入时间维度构建动态4D表征系统,为"子弹时间"等沉浸式视觉体验提供技术支撑[10] - 当前主流方法呈现两大技术路线:形变场建模方案在静态神经辐射场基础上学习时空形变场表征动态变化;显式时序编码方案将时间变量直接嵌入3D表征网络实现时空连续建模[10][11] - 相关研究主要聚焦两大方向:面向通用场景的4D重建技术,以及针对人体运动的专项动态建模方法[11] 第四层:场景内部交互关系重建 - 核心在于建立场景元素间的动态交互模型,人体作为交互行为主导者成为研究重点[13] - 早期工作开创性实现从视频中提取人体与物体运动关联,新一代算法在交互物体的几何外观和运动轨迹重建方面取得显著提升[13] - 人-场景交互建模这一新兴研究方向通过解构人与环境的复杂互动机制,为构建具有物理合理性的数字世界奠定重要基础[15] 第五层:物理规律约束重建 - Level 4系统在交互建模方面取得突破,但仍面临物理真实性挑战,现有方法普遍未能整合基础物理规律如重力、摩擦等[18] - 突破性进展体现在人体运动仿真方面,通过结合仿真平台与深度强化学习实现从视频到物理合理动作的转化[22] - 场景物理建模将研究范畴扩展至物体形变、碰撞检测等复杂物理现象[22] - 层级化技术框架展现AI认知能力从基础到高阶的完整进化路径,推动虚拟世界从"看起来真实"向"动起来真实"的质变[23]
具身目标导航/视觉语言导航/点导航工作汇总!
具身智能之心· 2025-08-12 15:04
点目标导航 - 无模型与基于模型学习规划方法比较研究 展示不同方法在点目标导航任务中的性能差异[4] - RobustNav基准测试平台专注于评估具身导航系统的鲁棒性 涵盖多种干扰场景[4] - 视觉里程计技术在点目标导航中表现出惊人效果 为定位提供新解决方案[5] - 可微分SLAM-Net框架实现粒子SLAM的端到端学习 提升视觉导航精度[5] - DD-PPO算法从25亿帧数据中学习接近完美的点目标导航器 训练规模达2.5B frames[5] - 占用预测技术实现高效探索与导航 通过环境结构预判提升路径规划效率[6] - 辅助任务加速点目标导航学习过程 通过多任务学习提升训练效果[6] - 主动神经SLAM方法结合学习与探索 实现动态环境下的自适应导航[6] 视听导航 - 学习语义无关且空间感知的表示 提升视觉-音频导航的泛化能力[7] - SoundSpaces 2.0仿真平台支持视觉-声学学习研究 提供多模态训练环境[8] - 对抗性音频-视觉导航研究声学干扰下的系统鲁棒性[8] - 动态声源的主动音频-视觉分离技术 实现移动环境下的声源定位[8] - Move2Hear系统通过主动移动实现声源分离 提升音频采集质量[8] - 语义音频-视觉导航结合语义理解与多模态感知[8] - 航路点设置学习框架优化音频-视觉导航路径规划[8] 对象目标导航 - DivScene基准测试评估LVLM在多样化场景中的对象导航能力[9] - MOPA模块化框架利用点目标智能体实现对象导航[9] - 自监督对象目标导航通过现场微调提升适应能力[9] - 协助请求学习框架优化具身视觉导航中的人机交互[9] - ProcTHOR程序化生成平台支持大规模具身AI训练[10] - 分层对象-区域图模型增强对象导航的空间推理能力[13] - 多对象导航基准MultiON评估语义地图记忆性能[14] - 对象导航重评估研究对智能体导航能力的标准化测试[16] 图像目标导航 - 实例感知的探索-验证-利用框架提升实例图像目标导航精度[17] - 可渲染神经辐射地图技术实现新型视觉导航表示[17] - 最后一公里具身视觉导航研究近距离精确定位问题[17] - 拓扑语义图记忆系统增强图像目标导航的环境理解[19] - 无强化学习导航方法探索免模拟训练新范式[19] - 视觉图记忆结合无监督表示学习提升导航效率[19] - 神经拓扑SLAM实现视觉导航中的地图构建与路径规划[19] 视觉语言导航 - SASRA智能体实现连续环境中的时空推理导航[22] - 语言对齐航路点监督方法提升连续环境导航精度[22] - 历史感知多模态Transformer融合时序与多模态信息[22] - Airbert领域内预训练模型专为视觉语言导航优化[26] - 航路点模型指导连续环境中的指令导航[26] - 环境随机混合技术增强视觉语言导航泛化能力[27] - 自激励通信智能体实现真实世界视觉对话导航[27] - 情景Transformer架构专为视觉语言导航设计[27] - Pathdreamer世界模型支持室内导航仿真预测[28]
CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心· 2025-08-12 08:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]
探究具身机器人有限泛化能力的本质原因!增强策略依然有效
具身智能之心· 2025-08-12 08:03
研究背景与核心问题 - 大规模机器人数据集如Open X-Embodiment(OXE)包含超过一百万段轨迹,但模型在训练数据分布外场景泛化能力有限[2] - 泛化限制主要源于捷径学习(shortcut learning),即模型依赖任务无关特征(如视角、背景)而非真正因果关系[2] - 在SIMPLER环境中,多个通用机器人策略执行"拿起可乐罐"而非指令"将勺子放在毛巾上",显示模型学习虚假相关性而非语言指令与目标关系[2] 数据集多样性和碎片化分析 - OXE子数据集的视觉和文本多样性(对数尺度)显著低于视觉/多模态数据集,最新数据集DROID多样性仍低几个数量级[4] - OXE子数据集通过t-SNE可视化显示明显分离和碎片化,重叠极少,某些子数据集有多个分离簇[8] - 子数据集内机器人技能预定义且限制在狭窄任务范围,轨迹间场景和视角变化有限[10] - 多样性度量显示子数据集内部多样性不足且差异增大时,数据集表现为孤立点而非连贯整体[12] - OXE总任务数182,158,但子数据集间重叠任务仅165,重叠子数据集对占比3.70%[14] - 不同子数据集文本特征比视觉/多模态数据集更接近,源于共享机器人技能和文本指令一致性[12] 数据集特性与捷径学习的理论联系 - 捷径学习发生在模型依赖无关因素时,当任务相关因素和无关因素在训练分布中不独立时形成虚假相关性[15] - 子数据集内独立性和均匀混合假设下,归一化互信息量化任务无关因素与标签相关性[15] - 支持集完全不相交子数据集的归一化互信息与子数据集内总多样性成反比[16] - 任务无关特征(如视觉)的子数据集间距离大于任务相关特征(如文本)时,模型优先学习高方差特征形成捷径[16] 实验验证 - LIBERO环境中提高子数据集内多样性或减少子数据集间差异可减少所有模型捷径依赖,从零成功率转变为非零成功率[17][18] - 实验变量包括视角多样性(子数据集内视角范围半径)、视角差异性(视角范围中心距离)、目标位置多样性和差异性(数量1-5和空间布局)[20] - 扩散策略中增加目标位置多样性无法缓解捷径学习,突显语言指令重要性[21] - 增加视角多样性(从2到10)反而诱导因素相关性加剧碎片化,使MiniVLA的OOD成功率降至零[23][24] - 真实世界实验使用AgileX PIPER机器人臂,添加第三个"桥梁"目标数据完全消除捷径行为,显著提高OOD成功率[26][28] - 视角增强(如ZeroNVS生成新视角)和目标增强(场景间交换目标)策略有效降低捷径学习程度,提高OOD成功率[30][32][34] - 未增强π0模型OOD设置中完全无法遵循指令,增强版本语言遵循和目标到达能力显著改进,SIMPLER环境中捷径度从1.0降至0.68,真实世界从0.8降至0.25[34][35]