Workflow
具身智能之心
icon
搜索文档
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
具身智能之心· 2025-09-19 08:03
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人与智能体领域,一个长期的挑战是:当你给机器人一个「去客厅把沙发上的书拿来」或者「沿着楼道走到门口,再右转」这一类指令时,机器人能不能 不仅「看见环境」,还能「理解指令」、「规划路径」、然后「准确执行动作」? 之前的许多方法表面上看起来也能完成导航任务,但它们往往有这样的问题:推理(reasoning)的过程不够连贯、不够稳定;真实环境中路径规划与即时控制之间 难以兼顾;在新的环境里泛化能力弱等。 Nav-R1 出场:什么是 Nav-R1? 这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文,提出了一个新的「身体体现式(embodied)基础模型」(foundation model),旨在让 机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说,它不仅「看到 + 听到+开动马达」,还 ...
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 08:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
390亿美元,全球具身智能第一估值来了!英伟达持续加注中
具身智能之心· 2025-09-19 08:03
融资与估值 - C轮融资获得超10亿美元承诺资本,投后估值高达390亿美元,创下具身智能赛道公开信息的最高估值纪录 [3] - 本轮融资由Parkway Venture Capital领投,英伟达、英特尔资本、LG Technology Ventures、高通风投等多家知名机构参与 [5] - 公司在2024年2月完成的B轮融资额为6.75亿美元,当时估值为26亿美元,估值在短时间内大幅跃升 [23] 技术进展与核心布局 - 公司自主研发的Helix架构是端到端的“视觉-语言-动作”模型,能使机器人像人一样感知、理解和行动,是分道扬镳后的首个关键成果 [18] - Helix通过单一统一模型和一组神经网络权重,即可在不同任务中实现强大性能,如精准拾取物品、操控抽屉与冰箱、协调多机器人灵巧交接等 [19] - 资金将用于三大核心领域:扩大人形机器人制造工厂BotQ的规模与场景部署、搭建下一代GPU基础设施以加速训练与模拟、启动先进数据采集项目以提升机器人在复杂环境中的能力 [9][10][22] 公司发展历程与战略转向 - 公司成立于2022年5月,创始人为连续创业者Bret Adcock [23] - 2024年曾与OpenAI签署协议合作开发下一代AI模型,但在2025年2月宣布解约,转向垂直整合机器人AI,建立专门服务于特定机器人硬件的端到端AI模型 [23][29][31] - 与OpenAI合作期间发布了Figure 01演示视频,分道扬镳后迅速推出软硬件全部重新设计的Figure 02,并发布了自主研发的Helix架构 [24][26][32] 行业竞争格局 - Figure以390亿美元估值位居超百亿美元估值梯队,是当前行业的领先者 [33] - 超百亿人民币估值梯队的公司包括Physical Intelligence(投前估值约20亿美元)、智元机器人(估值破百亿人民币)、宇树科技(估值达100亿人民币) [34][35][36] - 超十亿美元估值梯队的公司包括银河通用(估值超70亿人民币)和云深处(估值70亿人民币) [37][38]
VLA的论文占据具身方向的近一半......
具身智能之心· 2025-09-18 12:00
VLA技术发展现状 - VLA及其相关衍生方向占据近一半的具身产出 包括长程操作 泛化 少样本 VLA+RL 人形相关等领域[1] - VLA打破传统单任务局限 使机器人能在多样化场景中自主决策 灵活应对未见过环境 广泛应用于制造业 物流和家庭服务等领域[1] - 推动多个前沿项目发展 包括pi0 RT-2 OpenVLA QUAR-VLA和HumanVLA 促进学术界与工业界合作[1] - 适应多种机器人平台 包括机械臂 四足机器人和人形机器人 为智能机器人发展提供广泛潜力和实际应用价值[1] 产业生态布局 - 国内外具身智能领域处于蓬勃发展阶段 Unitree 智元 星海图 银河通用 逐际动力等团队从实验室走向商业化[3] - 科技巨头积极布局 包括华为 京东 腾讯等国内企业与国外Tesla Figure AI等公司共同推动领域发展[3] 科研培训体系 - 课程聚焦智能体通过感知-认知-行动循环与物理世界交互 详细剖析VLA范式技术演进[7] - 涵盖从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型的技术发展路径[7] - 深入分析具身智能核心挑战 包括跨域泛化 长期规划与世界模型构建[8] - 研究如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换[8] - 探讨PaLM-E RT-X等模型通过多模态预训练和微调策略增强机器人开放环境适应性和鲁棒性[8] - 关注前沿发展方向 包括多模态感知融合 触觉反馈整合 基于物理的推理以及社会互动能力[8] 课程特色与产出 - 培养独立学术研究能力 系统性梳理隐式端到端 显式端到端 分层端到端三大VLA模型体系[9] - 提供从理论到实践全链路培养 包含仿真环境搭建 实验设计与论文撰写全过程指导[10] - 传授学术研究方法论 包括论文写作 文献阅读 创新点提炼等研究者必备技能[10] - 分析领域研究热点与未解决难点 包括长期记忆 VLA+RL原子技能库构建 动作解码问题 多模态思维链等前沿方向[13] - 通过个性化研究指导 帮助学生形成研究idea并完成初步实验 掌握将研究成果转化为高质量学术论文的能力[10][13] - 课程最终产出包括论文初稿 并使学生全面掌握具身智能VLA模型理论基础与技术演进路径[14] 技术要求 - 推理要求4090以上算力 训练算力建议4卡4090(可租借)[15] - 需要一定pytorch和python基础 能够自行修改代码[15]
10000台,特斯拉Optimus Gen3刚刚拿下了全球最大订单!
具身智能之心· 2025-09-18 09:23
订单与采购 - 特斯拉Optimus Gen3获得全球首个外部订单 采购方为PharmAGRI制药公司 订单数量达10000台[1] - PharmAGRI计划使用机器人实现药物生产流程自动化 确保精准控制和高效率[1] 财务与激励 - 马斯克个人出资10亿美元买入特斯拉股票 该行动与"疯狂薪酬计划"相关联[1] - 若未来交付100万台Optimus机器人 马斯克可解锁价值1.2万亿美元的股票奖励[1] 性能与成本 - Optimus Gen3+在特斯拉工厂验证显示效率比人工高30%[3] - 未来机器人成本有望降至2万美元以下 具备高性价比优势[3]
TrajBooster:首个全身人行操作VLA方案,跨构型解决数据难题(代码全开源)
具身智能之心· 2025-09-18 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiacheng Liu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 研究背景与问题 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 想象一下:双足人形机器人在客厅里灵活深蹲取物,在厨房中跨高度整理餐具,全程无需大量人工演示数据——这一看似遥远的场景,正被 TrajBooster 框架推 向现实。 近年来,视觉 - 语言 - 动作(VLA)模型让机器人自主执行家庭任务成为可能,轮式人形机器人已能完成深蹲、跨高抓取等复杂动作,AgibotWorld Beta 数据集 显示其末端执行器轨迹覆盖 0.2-1.2 米范围,足以应对日常家庭场景。但双足人形机器人的研发却陷入瓶颈:它需要在保持下半身动态平衡的同时,用上身完成 操控,实现大范围全身动作难度极高。更关键的是,训练这类机器人需要大规模高质量演示数据,而传统遥操作流程依赖昂贵设备和专家操作,生成的数据集规 模小、场景单一,导致 VLA 模型难以适配新机器人的动作空间。 为解决这一痛 ...
具身智能能力狂飙,安全却滞后?首个安全可信EAI框架与路线图!
具身智能之心· 2025-09-18 08:03
文章核心观点 - 具身人工智能(EAI)在能力快速提升的同时,安全机制发展滞后,存在能力与安全脱钩的风险 [1][3] - 研究团队首次提出"安全可信具身智能"概念,并建立了系统性理论框架与发展蓝图 [3][12] - 创新性地提出了五级成熟度模型(L1-L5),从基础抵抗力到可验证复原力演进 [6][7][13] - 构建了包含可信性与安全性两大维度、十大核心原则的完整分析框架 [16][18] - 主张未来研究应从孤立优化转向控制论范式,构建闭环自适应系统 [31][33] 概念定义与体系构建 - 首次正式定义"安全可信具身智能"概念,确立为融合智能体内部可靠性与外部物理世界安全性的整体性研究领域 [12] - 提出"Make Safe EAI"理念,强调安全应是与生俱来的核心能力而非附加模块 [7] - 建立十大核心原则框架:可信性维度包含准确性、可靠性、可控性、可解释性、可审计性;安全性维度包含抗攻击性、滥用防范、隐私保护、价值对齐 [16][18] - 基于可信计算领域数十年演进基础构建理论体系,从可信系统到可信AI再到安全可信具身AI [11][15] 五级成熟度模型 - L1对齐:通过大规模数据训练使智能体符合人类价值观和安全规范 [13] - L2干预:通过可解释性与人类监督干预确保人类最高控制权 [13] - L3模仿反思:通过模仿安全行为模板学习安全执行任务 [13] - L4进化反思:具备自我改进机制,通过物理世界互动自主优化安全策略 [13] - L5可验证反思:安全性能由控制论等理论提供数学上的可验证保证 [13] 研究现状分析 - 定量分析显示当前研究主要集中在准确性、可靠性和抗攻击性上 [18][20] - 可审计性、可辨识性等原则研究较为缺乏,存在明显空白 [18][20] - 研究工作碎片化,学术界探索零散不成体系,业界产品安全发展滞后 [1][3] 工作流解构与风险分析 - 将具身智能工作流解构为四个核心阶段:指令理解、环境感知、行为规划和物理交互 [22][24] - 基于工作流构建全面文献分类体系,系统梳理各阶段各原则下的现有研究 [24][25] - 提供清晰的知识图谱,为研究者系统分析风险、归类研究提供工具 [24] 孪生模拟器关键技术 - 高质量孪生模拟器是开发可信EAI不可或缺的工具 [27] - 关键维度包括场景保真度、可定制性和环境可编辑性 [27][29] - 现有技术难以同时满足高保真、可扩展、可交互三大要求 [34][36] 未来发展方向 - 需要从孤立优化单个组件转向整体闭环的控制论范式 [31] - 构建三大支柱:高保真可交互的虚拟世界、自我进化智能体、无缝协同架构 [34][38][39] - 下一代记忆系统是实现自我进化的核心,需发展主动感知、记忆压缩、编辑与共享等关键技术 [38] - 协同架构需整合内部身脑协同、外部多智能体协作与人机协同 [39][41]
3D/4D World Model(WM)近期发展的总结和思考
具身智能之心· 2025-09-18 08:03
具身智能行业研究核心观点 - 行业研究重点从数据收集利用转向3D/4D世界模型开发 以解决数据合理性和丰富性问题[3] - 当前技术路线分化为隐式与显式两种世界模型 均存在明显局限性且尚未找到有效解决方案[4][7] - 物理仿真与视频生成技术融合成为突破方向 但跨平台部署和大规模数据扩展仍是关键挑战[9][14] 3D物理仿真器研究现状 - 显式世界模型集中于静态3D场景构建 通过模型构建或扫描方式初始化环境 典型代表包括Hunyuanworld-1.0和Matrix-3D项目[5] - 动态物理模拟采用前景背景分离方案 使用Mujoco/Mujoco-Warp进行物理仿真结合3DGS渲染 如Discoverse和EmbodiedGen项目[5] - 高保真场景重建通过Taichi对Mujoco素材再渲染实现 代表项目Genesis追求超高画质输出[5] 3DGS技术局限与优化 - 3DGS表面建模存在明显缺陷 SuGaR和2DGS等技术尝试结构化改造但几何优化仍较粗糙[8] - GSDF和Pano2Room采用Mesh/SDF监督优化 部分解决表面平滑问题但输出质量稳定性不足[8] - 完全弃用3DGS可能导致图形学新问题 如渲染饱和度过高和光照不平衡等视觉差异[8] 跨平台部署与数据扩展 - 物理参数设计主要基于Mujoco标准 在Isaac和SAPIEN等平台存在兼容性问题[9] - Roboverse项目开发统一跨平台仿真器 旨在优化世界模型的物理表达一致性[9] - 物理微分仿真范式面临数据扩展难题 动作表达灵活性不足以满足模仿学习数据需求[9] 视频生成与多视角技术融合 - 通义万相模型证明数据规模化清洗提升运动预测能力 Feed forward 3D技术强化3D信息估计[10] - 3DGS/4DGS与世界模型结合项目涌现 如GWM和Enerverse利用3R技术增强空间理解[10] - Dust3R到VGGT技术演进实现单帧到稠密几何的一站式推理 Robot4DGen开启模仿学习3R时代[10] 4D生成技术分类与挑战 - 模板生成法使用静态网格/骨架为基础 通过LBS/BlendShapes等技术实现4D生成[13] - 生成式方法从文本/图像生成3D模型 再通过视频绑定运动内容完成4D构建[13] - 视频反演法从交互视频提取几何物理 获得可模拟4D内容但技术成熟度较低[13] 技术发展路径预测 - 未来三年将外挂或内嵌物理知识发展方向 通过物理理解能力突破打破数据瓶颈[15] - 世界模型可能演变为具身智能基模的模块化组件 功能简化但保持核心预测能力[15] - 仿真器-视频生成组合方案如RoboTransfer将成为过渡 但可能限制视频模型进化潜力[14]
清华联手理想提出LightVLA:剪掉冗余token,推理速度提升38%!
具身智能之心· 2025-09-18 08:03
研究背景与核心挑战 - 视觉-语言-动作(VLA)模型是机器人具身智能的核心技术,能将视觉信息和语言指令直接转化为可执行的机器人动作,在复杂操作(如物体抓取、长程规划)中展现出强大能力 [2] - 这类模型存在关键瓶颈:视觉Token的计算冗余,VLA模型通常需要处理数百个视觉Token(如OpenVLA-OFT使用512个),而注意力机制的计算复杂度随Token数量呈平方增长,导致模型在边缘设备(如家用机器人、自动驾驶)上难以实现实时部署 [2] 现有优化方案的局限 - 效率与性能的trade-off:多数Token剪枝方法(如EfficientVLA、VLA-Cache)为提升效率会固定保留Token数量,导致关键语义信息丢失,最终牺牲性能 [3] - VLM剪枝方案不兼容:视觉-语言(VL)模型的剪枝方法(如SparseVLM、FastV)聚焦全局语义,而VLA模型需关注局部语义(如机械臂交互的物体),直接迁移会导致性能骤降 [3] - 部署兼容性差:基于注意力分数的剪枝方法(如SP-VLA、FlashVLA)依赖LLM的中间注意力输出,无法适配vLLM、SGLang等主流推理框架,难以落地 [3] LightVLA框架设计 - 核心逻辑是让模型通过微调自主学习筛选任务相关的视觉Token,而非依赖人工设定的剪枝比例 [4] - 设计围绕VLA模型的三模块结构(视觉编码器、LLM backbone、action head)展开,仅针对视觉Token进行剪枝(保留[CLS]Token以维持全局信息) [4] - 整体流程分为查询生成-Token评分-Token选择三阶段 [4] 查询生成阶段 - 通过视觉Token与语言Token的交叉注意力生成查询,公式为 $$Q=s o f t m a x\left({\frac{H_{v}H_{l}^{T}}{\sqrt{D}}}\right)H_{l}$$ [7] - 这一设计的核心逻辑是视觉Token的有用性由其与指令的关联性决定,且无需额外训练参数,避免增加模型复杂度 [7] Token评分阶段 - 每个查询会对所有视觉Token进行有用性评分,本质是计算查询与视觉Token的相似度,公式为 $$S={\frac{Q H_{v}^{T}}{\sqrt{D}}}$$ [10] - 评分越高说明该Token与任务的关联性越强 [10] Token选择阶段 - 采用改进版Gumbel-softmax解决传统argmax操作不可微的问题,让剪枝过程可端到端训练 [11] - 注入Gumbel噪声:为评分矩阵添加均匀分布噪声,噪声上限随训练迭代逐渐衰减 [11] - 软评分与硬选择结合:通过硬选择+软评分-停止梯度的软评分实现可微性 [12] - 推理阶段无需注入噪声,直接通过argmax选择Token,确保高效部署 [13] 实验验证结果 - 在LIBERO基准数据集上验证性能,平均成功率97.4%,较基础模型OpenVLA-OFT(94.5%)提升2.9% [16] - 在长程任务(LIBERO-Long)上成功率94.6%,远超同类剪枝方法(如SP-VLA 51.4%、VLA-Cache 52.8%) [16] - 平均仅保留78个视觉Token(仅为OpenVLA-OFT的15.2%),证明视觉Token中存在大量冗余 [16] - 计算量(FLOPs)降低59.1%,延迟降低38.2% [18] - 对比基础模型OpenVLA-OFT:虽成功率94.5%,但需处理512个Token,计算量是LightVLA的2.4倍 [18] 消融实验 - 噪声衰减的作用:无噪声或固定噪声的变体,平均成功率均降至97.0%,且固定噪声变体保留Token数增至112个 [20] - Token筛选的准确性:对筛选后的Token进行加随机Token(2k)或减10%Token(0.9k),成功率均下降(96.8%/96.6%) [20] LightVLA*变体 - 引入额外可训练参数(查询头),通过可学习查询引导Token筛选 [22] - 设计了两种部署位置:视觉编码器后剪枝和LLM早期层剪枝 [22] - 平均成功率达96.2%-97.0%,略低于LightVLA(97.4%) [23] - LLM早期层剪枝在长程任务(Long)上表现更优(94.8%),说明语言语义能进一步引导Token筛选 [23] 与MoE技术的差异 - 目标差异:LightVLA以提升任务性能为核心,筛选与任务强相关的视觉Token;MoE以均衡专家负载为核心,将任务分配给不同专家 [28] - 行为差异:LightVLA的Token选择是性能驱动的非均匀筛选(关键物体Token被优先保留);MoE的专家选择是负载驱动的均匀分配 [28]
具身智能之心企业合作邀请函
具身智能之心· 2025-09-17 11:14
联系方式 添加商务微信oooops-life做进一步沟通。 具身智能之心是具身智能领域的优秀创作和宣传的媒体平台。近一年内,我们和多家具身公司签订长期合作事 项,包括但不限于产品宣传、品牌宣传、硬件代理、联合运营、教育产品研发等。 随着团队的不断扩大,我们期望在上述业务上和更多优秀的公司建立联系,推动具身领域的快速发展。欢迎有 相关业务需求的公司或团队联系我们。 我们期待进一步的合作!!! ...