具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

保持精度，提升速度！Spec-VLA：首个专为VLA推理加速设计的推测解码框架

具身智能之心· 2025-08-14 08:03

视觉-语言-动作（VLA）模型加速技术 - 视觉-语言-动作（VLA）模型依托视觉语言模型（VLMs）的强大能力取得显著进展，但VLMs庞大的参数规模和自回归解码特性带来较大计算负担 [2] - 投机解码（SD）技术通过高效的草稿生成与并行验证，能在单次前向传播中生成多个token，从而加速大型语言模型（LLMs）推理，但该技术在VLA模型中的应用尚未被探索 [2] Spec-VLA框架创新 - 提出首个专为VLA推理加速设计的SD框架Spec-VLA，针对动作预测任务难度和贪婪解码机制，设计宽松接受机制提升生成速度 [2] - 多场景测试表明，Spec-VLA框架能将接受长度提升44%，相比OpenVLA基线模型实现1.42倍速度提升，且不降低任务成功率 [2] - 该框架无需微调VLA验证模型，仅需训练草稿模型即可对OpenVLA框架实现42%加速 [6] 技术应用与潜力 - Spec-VLA框架的成功凸显了投机执行在VLA预测场景中更广泛应用的潜力 [2] - 相关技术包括推测解码方法、VLA模型介绍以及Spec-VLA框架的实现细节 [7] 行业动态与活动 - 直播活动聚焦推测解码技术在大语言模型加速中的应用，以及Spec-VLA框架的具体实现 [6][7] - 行业其他技术进展包括VR-Robo真实场景机器人导航、CVPR冠军方案BridgeVLA真机性能提升32%等 [9]

视觉-语言-动作（VLA）模型

投机解码（SD）

视觉-语言-动作（VLA）模型

投机解码（SD）

想做具身方向，师兄建议我去这里......

具身智能之心· 2025-08-14 08:03

具身智能社区概况 - 国内首个具身全栈技术社区"具身智能之心知识星球"已完成产业、学术、求职、问答等多领域闭环，成员来自斯坦福大学、清华大学、ETH等顶尖高校及智元机器人、优必选等头部企业[17] - 社区提供近40+开源项目、60+数据集、30+技术路线及主流仿真平台资源，覆盖感知学习、强化学习、多模态大模型等16个技术方向[17] - 已建立企业内推机制，与智元机器人、傅里叶机器人等公司合作输送人才，首批学员获头部公司offer并开始实习[1][11] 技术资源体系 - 汇总30家具身机器人公司资料，涉及教育、医疗、工业等7大应用场景，包含零部件厂商芯片/激光雷达等供应链信息[22][27] - 整理60+数据集涵盖触觉感知、视觉语言导航等9大领域，40+开源项目覆盖仿真、抓取、控制等6大模块[17][30] - 技术路线包含Diffusion Policy、VLA+RL等24个前沿方向，提供强化学习全栈、多模态大模型等系统学习路径[17][31][32] 行业动态与人才发展 - 具身智能行业处于探索期，技术路径向大模型/端到端迁移，自动驾驶领域人才正逐步转向该领域[47][49] - 薪资水平显示：具身智能岗位薪资较传统SLAM岗位高出6k/月，头部初创公司1-2年经验总包达70-80万[48][49] - 职业转型建议：视觉SLAM从业者可转向视觉语言导航或DL-based SLAM，需补充Transformer等深度学习基础[47][49] 社区运营模式 - 采用"问题驱动"机制，实时解决设备使用、数据采集等实操问题，案例响应速度达项目级应用[1] - 组织圆桌论坛/直播活动50+场，邀请产业界嘉宾分享本体设计、算法优化等实战经验[4][43] - 建立分层学习体系：小白可获取入门技术栈，进阶者接触产业级项目方案，高阶成员参与前沿课题研讨[14][15][17] 技术热点聚焦 - VLA+RL融合方向受重点关注，社区汇总相关训练方案及在抓取规划任务中的应用案例[3][31] - sim2real技术瓶颈突破方案受关注，社区提供real2sim2real等创新方法解析[3][41] - 多模态大模型应用最活跃，细分12个子领域包括Many-to-Many跨模态生成等前沿方向[36][37]

具身智能之心知识星球

具身智能之心知识星球

端到端模型！GraphCoT-VLA：面向模糊指令的操作任务的VLA模型

具身智能之心· 2025-08-13 08:04

领域介绍 - 视觉-语言-动作（VLA）模型正成为机器人领域的核心范式，旨在实现自然高效的人机交互 [5] - 现有VLA模型基于预训练视觉-语言模型（VLMs）构建，利用其强大的视觉接地和语言理解能力 [5] - 当前模型依赖清晰结构化指令，难以处理现实场景中的模糊指令（如"我想吃辣味河鲜"） [6] 技术挑战 - 现有模型无法关联多模态感知与上下文，导致动作规划脱离真实环境 [8] - 观测模态局限在静态二维视图，缺乏对三维交互的建模能力 [8] - 思维链（CoT）方法存在情境感知有限、无法处理模糊指令等缺陷 [8] 解决方案 - 提出GraphCoT-VLA模型，整合结构化CoT推理与实时3D姿态-物体图 [9] - 结构化CoT模块包含：高层任务理解与规划、失败任务反馈、低层未来想象推理 [3] - 姿态-物体图实时捕捉机器人关节配置与物体三维拓扑关系 [13] - 采用dropout混合推理策略平衡深度推理与实时控制需求 [15] 模型架构 - 姿态-物体图构建：通过YOLO-World检测物体，结合深度信息投影为三维点，与机器人末端执行器形成全连接图 [13] - 图编码器使用两层GNN处理空间关系，输出节点特征输入VLM [17][18] - CoT推理流程：场景理解→可行性分析→反馈生成→未来预测（间隔ΔT帧） [19][20] - 整体框架整合多视角图像、本体感受、语言指令和图数据，输出动作序列分布 [22][23] 训练策略 - CoT监督采用交叉熵损失，动作优化采用条件流匹配损失 [24][26] - 联合训练引入CoT监督dropout（概率p），支持推理引导与直接预测双模式 [27][28] - 推理时混合策略：首帧生成完整CoT，后续帧跳过推理直接预测动作 [28] 实验结果 - 在"食物准备"任务中成功率比最优基线Octo提升10%，"服装选择"任务比π₀提升18.33% [37] - 姿态-物体图使成功率最高提升18.33%，动作更连贯自然 [40] - CoT模块显著增强模糊指令下的任务规划能力，减少动作不足或持续挥舞等问题 [41] - 推理频率保持10Hz，与基线π₀相当，满足实时控制需求 [44][45] 技术验证 - 姿态-物体图可视化显示其有效编码机器人与物体的空间配置 [42] - CoT能根据环境变化动态调整决策，预测物体位置与实际高度匹配 [43] - 在双臂机器人上验证，涉及600个训练演示和20次/任务的测试协议 [29][36]

端到端的视觉-语言-动作（VLA）模型

思维链（Chain-of-Thought）

端到端的视觉-语言-动作（VLA）模型

思维链（Chain-of-Thought）

近2000人了！这个具身社区偷偷做了这么多事情了......

具身智能之心· 2025-08-13 08:04

具身智能社区概述 - 社区定位为国内首个具身全栈技术交流平台，聚焦学术与工程问题，成员来自斯坦福大学、清华大学等顶尖高校及智元机器人、优必选等头部企业[13][14] - 已形成产业、学术、求职、问答的闭环生态，日均运营复盘优化社区内容[1] - 核心目标是缩短技术检索时间，提供从入门到进阶的全链条资源[14] 核心资源体系学术与产业资源 - 汇总40+开源项目、60+具身数据集及主流仿真平台[14] - 梳理30+技术路线，覆盖强化学习、多模态大模型、机械臂控制等24个细分方向[14][41][43][45] - 收录近30家国内外具身机器人公司资料，涉及教育、医疗等应用领域[21] 人才发展支持 - 建立与智元机器人等企业的内推机制，直接对接招聘需求[6] - 提供职业路径规划，包括实习项目包装建议（如Isaac Sim仿真项目）[74][75] - 汇总国内外50+高校实验室信息，助力升学与科研发展[19] 技术内容矩阵学习体系 - 入门者可通过技术栈路线（如Diffusion Policy学习路线）快速上手[57][7] - 进阶者获取产业级项目方案与VLA模型等前沿技术资料[9][55] - 配套50+机器人专业书籍与行业研报，覆盖动力学、导航等基础领域[24][27] 行业动态追踪 - 实时更新具身智能在自动驾驶迁移、大模型部署等领域的融合应用案例[77][81] - 分析技术趋势：传统SLAM向端到端导航演进，Transformer架构逐步渗透[77][79] - 跟踪零部件供应链，汇总芯片、激光雷达等关键设备厂商信息[29][33] 社区运营特色 - 定期举办圆桌论坛，邀请产业界嘉宾解析算法落地挑战[2] - 成员可自由提问，获得职业转型建议（如SLAM从业者转向具身感知的路径）[78][80] - 提供仿真平台对比数据与触觉感知等多模态技术集成方案[37][47]

具身智能相关服务

具身智能相关服务

VLA还是VTLA？这家企业用“超人类触觉”技术颠覆机器人未来！

具身智能之心· 2025-08-13 08:04

行业现状与技术瓶颈 - 具身机器人硬件和技术相比去年有较大提升，但感知大脑落后于硬件 [1] - 端到端VLA模型是行业关注重点，但视觉在物理交互中存在材质、硬度、摩擦力感知不足的问题 [1] - 触觉感知可弥补视觉缺陷，VTLA（视觉-触觉-语言-动作）被认为是下一代端到端模型范式 [1] - 触觉传感器行业存在分辨率低、实时性差、耐用性不足等技术瓶颈 [2][3] 公司技术与产品突破 - 戴盟机器人研发出基于单色光的高分辨率视触觉感知技术，通过光学变化生成触觉"图像" [4] - 核心产品DM-Tac W是全球首款多维高分辨率高频率视触觉传感器，每平方厘米覆盖4万个感知单元，远超人类手指的240个和传统传感器的数百倍 [4] - 推出多维触觉灵巧手DM-Hand1，集成毫米级超薄视触觉传感器，提升灵活性和感知能力 [6] - 产品通过500万次按压测试，获欧盟CE和美国FCC双认证，实现千片级规模量产 [9] 融资与商业化进展 - 完成亿元级天使++轮融资，三轮融资总额达数亿元，刷新全球触觉感知领域天使轮融资纪录 [3] - 融资资金将用于推动高分辨率视触觉感知技术和灵巧操作技术的产业化落地 [3] - 在世界机器人大会(WRC)展示核心产品，与京东联合展示真实应用场景 [8] 应用场景与行业影响 - 技术可应用于工业装配、医疗手术、家庭服务等需要高精度任务的场景 [1] - DM-Hand1能为工业制造、医疗康复等领域提供全新解决方案 [6] - 产品已从"样机时代"迈向"规模部署时代"，推动触觉传感技术商业化应用 [9] - 公司致力于构建覆盖感知、操作、学习的完整产品生态，助力行业进入触觉智能新纪元 [10]

AI如何一步步「看懂」时空结构？一篇综述解析通往四维世界的五大层次

具身智能之心· 2025-08-13 08:04

编辑丨机器之心点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。 4D 空间智能重建是计算机视觉领域的核心挑战，其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化，构建出具有时间维度的空间表征系统，在虚拟现实、数字孪生和智能交互等领域展现出关键价值。当前研究主要围绕两大技术维度展开：基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取；高阶理解层面则致力于解析场景组件的时空关联与物理约束。 arXiv： https://arxiv.org/abs/2507.21045 Project Page： https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence 他们提出了一种新的分析视角，将已有方法按照空间智能的建构深度划分为五个递进的层次：这种多维度的空间建模能力正成为新一代人工智能发展的基础设施——无论是构建具身智能的环境认 ...

4D空间智能重建

Artificial Intelligence

4D空间智能重建技术

4D空间智能重建

Artificial Intelligence

4D空间智能重建技术

具身目标导航/视觉语言导航/点导航工作汇总！

具身智能之心· 2025-08-12 15:04

点目标导航 - 无模型与基于模型学习规划方法比较研究展示不同方法在点目标导航任务中的性能差异[4] - RobustNav基准测试平台专注于评估具身导航系统的鲁棒性涵盖多种干扰场景[4] - 视觉里程计技术在点目标导航中表现出惊人效果为定位提供新解决方案[5] - 可微分SLAM-Net框架实现粒子SLAM的端到端学习提升视觉导航精度[5] - DD-PPO算法从25亿帧数据中学习接近完美的点目标导航器训练规模达2.5B frames[5] - 占用预测技术实现高效探索与导航通过环境结构预判提升路径规划效率[6] - 辅助任务加速点目标导航学习过程通过多任务学习提升训练效果[6] - 主动神经SLAM方法结合学习与探索实现动态环境下的自适应导航[6] 视听导航 - 学习语义无关且空间感知的表示提升视觉-音频导航的泛化能力[7] - SoundSpaces 2.0仿真平台支持视觉-声学学习研究提供多模态训练环境[8] - 对抗性音频-视觉导航研究声学干扰下的系统鲁棒性[8] - 动态声源的主动音频-视觉分离技术实现移动环境下的声源定位[8] - Move2Hear系统通过主动移动实现声源分离提升音频采集质量[8] - 语义音频-视觉导航结合语义理解与多模态感知[8] - 航路点设置学习框架优化音频-视觉导航路径规划[8] 对象目标导航 - DivScene基准测试评估LVLM在多样化场景中的对象导航能力[9] - MOPA模块化框架利用点目标智能体实现对象导航[9] - 自监督对象目标导航通过现场微调提升适应能力[9] - 协助请求学习框架优化具身视觉导航中的人机交互[9] - ProcTHOR程序化生成平台支持大规模具身AI训练[10] - 分层对象-区域图模型增强对象导航的空间推理能力[13] - 多对象导航基准MultiON评估语义地图记忆性能[14] - 对象导航重评估研究对智能体导航能力的标准化测试[16] 图像目标导航 - 实例感知的探索-验证-利用框架提升实例图像目标导航精度[17] - 可渲染神经辐射地图技术实现新型视觉导航表示[17] - 最后一公里具身视觉导航研究近距离精确定位问题[17] - 拓扑语义图记忆系统增强图像目标导航的环境理解[19] - 无强化学习导航方法探索免模拟训练新范式[19] - 视觉图记忆结合无监督表示学习提升导航效率[19] - 神经拓扑SLAM实现视觉导航中的地图构建与路径规划[19] 视觉语言导航 - SASRA智能体实现连续环境中的时空推理导航[22] - 语言对齐航路点监督方法提升连续环境导航精度[22] - 历史感知多模态Transformer融合时序与多模态信息[22] - Airbert领域内预训练模型专为视觉语言导航优化[26] - 航路点模型指导连续环境中的指令导航[26] - 环境随机混合技术增强视觉语言导航泛化能力[27] - 自激励通信智能体实现真实世界视觉对话导航[27] - 情景Transformer架构专为视觉语言导航设计[27] - Pathdreamer世界模型支持室内导航仿真预测[28]

视觉语言导航

点目标导航

ObjectGoal导航

视觉语言导航

点目标导航

ObjectGoal导航

CMU最新！跨实体世界模型助力小样本机器人学习

具身智能之心· 2025-08-12 08:03

研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据（如公开机器人数据集和人类摆弄物体数据集）减少数据收集工作量[2] - 采用光流作为具身无关的动作表示在跨多个具身数据集上预训练世界模型再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集（两千个片段）和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]

机器人学习

潜在策略引导（LPS）

Open X - embodiment数据集

机器人学习

潜在策略引导（LPS）

Open X - embodiment数据集

探究具身机器人有限泛化能力的本质原因！增强策略依然有效

具身智能之心· 2025-08-12 08:03

研究背景与核心问题 - 大规模机器人数据集如Open X-Embodiment（OXE）包含超过一百万段轨迹，但模型在训练数据分布外场景泛化能力有限[2] - 泛化限制主要源于捷径学习（shortcut learning），即模型依赖任务无关特征（如视角、背景）而非真正因果关系[2] - 在SIMPLER环境中，多个通用机器人策略执行"拿起可乐罐"而非指令"将勺子放在毛巾上"，显示模型学习虚假相关性而非语言指令与目标关系[2] 数据集多样性和碎片化分析 - OXE子数据集的视觉和文本多样性（对数尺度）显著低于视觉/多模态数据集，最新数据集DROID多样性仍低几个数量级[4] - OXE子数据集通过t-SNE可视化显示明显分离和碎片化，重叠极少，某些子数据集有多个分离簇[8] - 子数据集内机器人技能预定义且限制在狭窄任务范围，轨迹间场景和视角变化有限[10] - 多样性度量显示子数据集内部多样性不足且差异增大时，数据集表现为孤立点而非连贯整体[12] - OXE总任务数182,158，但子数据集间重叠任务仅165，重叠子数据集对占比3.70%[14] - 不同子数据集文本特征比视觉/多模态数据集更接近，源于共享机器人技能和文本指令一致性[12] 数据集特性与捷径学习的理论联系 - 捷径学习发生在模型依赖无关因素时，当任务相关因素和无关因素在训练分布中不独立时形成虚假相关性[15] - 子数据集内独立性和均匀混合假设下，归一化互信息量化任务无关因素与标签相关性[15] - 支持集完全不相交子数据集的归一化互信息与子数据集内总多样性成反比[16] - 任务无关特征（如视觉）的子数据集间距离大于任务相关特征（如文本）时，模型优先学习高方差特征形成捷径[16] 实验验证 - LIBERO环境中提高子数据集内多样性或减少子数据集间差异可减少所有模型捷径依赖，从零成功率转变为非零成功率[17][18] - 实验变量包括视角多样性（子数据集内视角范围半径）、视角差异性（视角范围中心距离）、目标位置多样性和差异性（数量1-5和空间布局）[20] - 扩散策略中增加目标位置多样性无法缓解捷径学习，突显语言指令重要性[21] - 增加视角多样性（从2到10）反而诱导因素相关性加剧碎片化，使MiniVLA的OOD成功率降至零[23][24] - 真实世界实验使用AgileX PIPER机器人臂，添加第三个"桥梁"目标数据完全消除捷径行为，显著提高OOD成功率[26][28] - 视角增强（如ZeroNVS生成新视角）和目标增强（场景间交换目标）策略有效降低捷径学习程度，提高OOD成功率[30][32][34] - 未增强π0模型OOD设置中完全无法遵循指令，增强版本语言遵循和目标到达能力显著改进，SIMPLER环境中捷径度从1.0降至0.68，真实世界从0.8降至0.25[34][35]

数据集多样性

数据集碎片化

Open X-Embodiment/OXE

数据集多样性

数据集碎片化

Open X-Embodiment/OXE

机器人上下文协议首次开源：阿里达摩院一口气放出具身智能「三大件」

具身智能之心· 2025-08-12 08:03

阿里达摩院具身智能开源项目 - 阿里达摩院在世界机器人大会上宣布开源三款具身智能相关模型和协议：视觉-语言-动作模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP [1] - RynnRCP协议旨在解决具身智能开发流程碎片化问题，推动数据、模型和机器人本体的兼容适配，已支持Pi0、GR00T N1.5等多款热门模型及SO-100、SO-101等机械臂 [2] - RynnRCP包含两大模块：RCP框架（建立机器人本体与传感器连接）和RobotMotion（实现大模型与机器人控制的桥梁）[4][5] 开源模型技术细节 - RynnVLA-001是基于视频生成和人体轨迹预训练的7B参数模型，可从第一人称视频学习人类操作技能并迁移到机械臂控制 [7] - RynnEC是世界理解模型，能从11个维度解析场景物体，支持仅通过视频序列建立空间感知 [7] - 达摩院上月还开源了WorldVLA模型，首次实现世界模型与动作模型融合 [8] 具身智能产业布局 - 达摩院聚焦具身智能系统和模型研发，与产业共建基础设施包括硬件适配、数据采集和技术社区 [7] - 公司正在拓展机器人产业空间，加速场景落地 [7] 开发者生态建设 - 具身智能之心知识星球是国内首个具身智能全栈学习社区，包含30+学习路线、40+开源项目、60+数据集 [11] - 社群覆盖60+技术交流群，涉及大模型、机器人仿真、产品开发等多个方向 [12]