具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

让 VLMs 更适配机器人：小型VLMs也能展现出强大的视觉规划能力

具身智能之心· 2025-07-15 21:49

研究背景 - 大语言模型（LLMs）在机器人程序规划中展现出潜力，能生成符合人类直觉的分步动作序列，但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型（VLMs）为生成更具感知接地性的计划提供可能，但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当，可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架，通过迭代自我批判和自我改进提升小型VLMs（3B-72B参数）的视觉语言程序规划能力[4] - 框架基于自蒸馏原则，无需外部监督或教师模型，通过三阶段循环（批判-修订-验证）优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型，在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集（100个真实场景）和修改后的MFE-ETP仿真数据集（100个虚拟场景）[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度，采用GPT-4o作为自动评估器，与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%，完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%，优化轮次增加使胜率从75-78%升至81%，多数改进出现在前2-3轮[16] - 相较best-of-N方法，SelfReVision在多数设置中提升60%，12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中，Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中，SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%，高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强，消融实验中Verify步骤被证明对过滤次优修订至关重要（PLACES数据集胜率差9 3%）[18][19] - 推理成本较高，平均每个样本需8个推理步骤，可能影响实时应用[22] - 当前仅整合视觉输入，未利用机器人本体感受等多模态信息，限制场景适应性[22]

大语言模型（LLMs）

视觉语言模型（VLMs）

SelfReVision框架

大语言模型（LLMs）

视觉语言模型（VLMs）

SelfReVision框架

物理模拟器与世界模型驱动的机器人具身智能综述

具身智能之心· 2025-07-15 21:49

具身智能技术综述 - 具身智能成为机器人与人工智能领域的前沿课题，关注智能体在物理世界中的感知、推理与行动能力[3] - 物理模拟器与世界模型是两大关键技术：前者提供高保真虚拟训练环境，后者实现内部环境预测与策略规划[3][5] - 论文整合25张图、6张表格、超400篇文献，系统梳理技术协同路径[3] 技术框架与能力分级 - 提出五级机器人能力标准(IR-L0至IR-L4)：从基础执行到完全自主决策[8][15] - 物理模拟器核心指标包括物理引擎精度(ODE/DART/MuJoCo等)、渲染能力(OpenGL/Vulkan)及传感器支持[13][18][19] - 世界模型架构涵盖预测网络、生成式模型及多任务复合模型，应用于自动驾驶与关节机器人[14] 主流技术平台对比 - 物理仿真平台横评：MuJoCo在刚体动力学领先，Isaac系列支持GPU加速物理(PhysX/FleX)，CoppeliaSim兼容多引擎[18] - 渲染能力差异显著：Isaac Sim/Isaac Lab采用Omniverse RTX实现光线追踪，Webots/Gazebo依赖基础OpenGL[19] - 自动驾驶领域世界模型密集涌现，如GAIA-1、DriveDreamer等基于扩散模型与Transformer架构[20] 应用场景与突破方向 - 运动控制技术从模型预测控制(MPC)演进至深度强化学习端到端策略[15] - 操作控制结合VLM/LLM实现视觉-语言-动作一体化，双臂协作精度提升[15] - 交互能力突破包括社会嵌入认知与物理安全机制[15]

通用人工智能（AGI）

物理模拟器（Webots

通用人工智能（AGI）

物理模拟器（Webots

重磅直播！RoboTwin2.0：强域随机化双臂操作数据生成器与评测基准集

具身智能之心· 2025-07-15 21:49

双臂机器人训练瓶颈 - 真实示教数据规模化获取成本高耗时长难以覆盖足够多任务物体形态与硬件差异 [2] - 现有仿真缺乏针对新任务的高效可扩展专家数据生成方法 [2] - 域随机化设计过于表层无法模拟真实环境中的复杂性 [2] - 未考虑不同双臂平台在运动学与抓取策略上的行为差异导致数据合成方案难以在新环境或新硬件上泛化 [2] 技术资源与竞赛 - RoboTwin平台提供代码库论文及使用文档涉及双臂机器人仿真与训练 [3] - CVPR RoboTwin竞赛技术报告展示真实场景机器人导航与运动控制方案 [3][4] - BridgeVLA方案实现真机性能提升32% [4] 行业技术进展 - VR-Robo技术通过real2sim2real框架助力真实场景机器人导航与运动控制 [4] - UniVLA方案高效利用多源异构数据构建通用可扩展机器人动作空间 [5] - 行业关注遥操技术流畅度对机器人操作性能的影响 [5] 深度内容获取 - 具身智能之心知识星球提供完整技术细节QA及未公开彩蛋涵盖双臂机器人训练仿真等专题 [1][4]

为什么纯人形VLA方案很少？这些公司的方案是哪些？

具身智能之心· 2025-07-15 17:39

机械臂VLA与人形VLA的应用现状 - 机械臂VLA当前主要应用于移动抓取和放置任务这些任务相对单一且依赖视觉辅以触觉或力觉传感器落地难度较低[1] - 人形机器人面临数据采集困难和控制复杂度高的挑战例如单只灵巧手可能包含20个自由度全身自由度接近百个需采用强化学习训练动作[1] - 人形VLA在复杂环境中的泛化性和灵活性不足难以像机械臂VLA在结构化环境中稳定工作[1] 技术融合发展趋势 - 行业探索VLA与强化学习(RL)结合的混合架构 RL擅长底层运动优化 VLA擅长高层任务规划[1] - 未来可能形成"VLA规划+RL执行"模式该方向已吸引多家独角兽公司投入人力资源并开放相关岗位[1] 商业化落地差异 - 机械臂VLA因任务标准化程度高在工业场景中已实现规模化应用[1] - 人形VLA受限于多自由度协同控制难题商业化进程明显滞后于机械臂品类[1]

VLA+RL混合架构

人形机器人VLA

VLA+RL混合架构

人形机器人VLA

TACTILE-VLA：激活VLA模型的物理知识以实现触觉泛化（清华大学最新）

具身智能之心· 2025-07-15 15:55

核心观点 - 视觉-语言-动作模型（VLA）在接触密集型场景中存在触觉感知缺失的短板，难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知，激活VLA模型中隐含的物理知识，解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型（VLM）的先验知识中已包含物理交互的语义理解，通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标关键发现 - VLM的先验知识包含物理交互语义理解，触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型，构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令，解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制，基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制，通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主，力误差超阈值时引入力反馈调整，公式ΔF为目标力与实测力差值 [14] - 双通道分离设计：外部净力通过机械臂笛卡尔位置控制，内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展，检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型，保留通用推理能力 [14] 实验验证触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%，充电器任务达90%，显著高于基线模型（最高40%）[21] - 力控制精度：USB任务中"轻柔地"0.51N vs "用力地"2.57N，充电器任务保持区分度（4.68N vs 9.13N）[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%，域外物体80%-100%，显著高于基线（易碎物体基线接近0）[27] - 能根据物体属性自主调整力度：坚硬沉重物体用大力，易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%，基线模型和Tactile-VLA（无推理）分别为0和15% [33] - 首次尝试3.5N力失败后，通过推理将力增加到6.7N并成功完成任务 [33]

视觉-语言-动作模型（VLA）

Tactile-VLA-CoT

视觉-语言-动作模型（VLA）

Tactile-VLA-CoT

机器人与具身控制WBC和MPC方法汇总

具身智能之心· 2025-07-14 19:15

机器人控制方案 - 机器人控制主要分为MPC（模型预测控制）和强化学习两种方案 [3] - MPC是一种实时控制方法，广泛应用于人形机器人领域 [3] - WBC（全身控制）是一种优化框架，用于人形机器人在复杂环境中的运动生成 [4] MPC相关研究 - 2013年提出了一种实时MPC系统，应用于人形机器人控制 [3] - 2015年将MPC应用于HRP-2人形机器人，实现全身控制 [3] - 2017年出版MPC理论、计算与设计的专著 [3] - 2023年综述了MPC在腿式和人形机器人中的应用模型与算法 [3] WBC相关研究 - 2006年提出人形机器人在人类环境中的全身控制框架 [4] - 2014年开发分层二次规划方法，实现快速在线运动生成 [4] - 2015年优化Atlas人形机器人的运动规划、估计与控制设计 [4] - 2015年结合WBC与运动跟踪实现柔顺运动 [5] - 2017年出版人形机器人百科全书，涵盖WBC内容 [5] - 2024年推出ExBody2系统，实现高级表达性全身控制 [5] - 2025年提出统一框架，实现精细运动控制 [5]

机器人控制

MPC（Model Predictive Control）

WBC（Whole-Body Control）

机器人控制

MPC（Model Predictive Control）

WBC（Whole-Body Control）

从本体到数据，从VLA到VLN！大家在这里抱团取暖

具身智能之心· 2025-07-14 19:15

具身智能社区发展 - 社区成立三周年，专注于具身智能领域，目前正推动社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等具身智能技术迭代，行业进展迅速[1] - 社区成员包括学术研究者和求职者，内部梳理30+技术路线，覆盖benchmark检索、综述学习等需求[1] 资源与技术支持 - 汇集40+开源项目、60+具身智能数据集及主流仿真平台，提供技术学习路线如强化学习、VLN、VLA等[11] - 汇总国内外30家具身机器人公司（智元、优必选等）及高校实验室（斯坦福、清华等）资源[11][17] - 提供机器人零部件品牌清单（芯片、激光雷达等）及仿真平台资源（通用与真实场景仿真）[24][32] 行业活动与人才服务 - 举办圆桌论坛、直播活动，覆盖本体、数据、算法等主题，邀请产业界嘉宾参与[1] - 与多家具身公司建立内推机制，直接对接求职者与岗位需求[2] - 成员可获取专属研报（大模型、人形机器人等）、技术书籍（导航、动力学等）及数据集（触觉感知、机械臂抓取等）[19][22][30] 技术路线与研究方向 - 强化学习全栈方案涵盖LLM强化学习、可解释强化学习等子领域[34] - 具身感知路线整合3D视觉定位、触觉感知等任务，交互方向覆盖抓取、视觉语言模型等[36][38] - 多模态大模型内容包含理解（Image+Text到Text）与生成（Video+Text到Video+Text）技术[44][46] 社区互动与案例 - 成员可自由提问工作或研究方向问题，获行业大佬解答[66] - 案例：研一学生通过仿真项目（如Isaac Sim）准备具身智能实习，社区提供项目建议[68] - 直播内容涉及机器人操作系统（EMO S）、协同感知（RoboTwin数据集）等前沿主题[65]

具身智能数据集

具身智能仿真平台

具身智能数据集

具身智能仿真平台

智源全面开源具身大脑RoboBrain 2.0与大小脑协同框架RoboOS 2.0：刷新10项评测基准

具身智能之心· 2025-07-14 19:15

具身智能技术突破 - 智源研究院发布RoboBrain 2.0 32B版本和跨本体大小脑协同框架RoboOS 2.0单机版，RoboBrain 2.0作为"通用具身大脑"集感知、推理与规划于一体，32B版本在多项权威具身智能基准上刷新纪录，7B版本具备轻量化设计适配边缘设备部署需求 [2] - RoboOS 2.0是全球首个具身智能SaaS开源框架，创新性集成MCP协议与无服务器架构，实现轻量化部署，同步推出单机版产品线及RoboSkill技能商店，支持"三行指令"极速部署 [3] - RoboBrain 2.0突破三大能力瓶颈：空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺，显著提升对复杂具身任务的理解与执行能力 [4] RoboBrain 2.0技术架构 - 采用模块化的编码器-解码器架构，实现感知、推理和规划的统一，专门针对具身推理任务如空间感知、时间建模和长链因果推理 [9] - 依托全面且多样化的多模态数据集，融合高分辨率图像、多视角视频序列、场景图、3D场景数据及复杂自然语言指令 [12] - 采用三阶段递进式训练流程：基础时空学习、具身时空增强、具身情境中的推理链训练，训练样本量分别为4.8M、224K、195K [14][15][17][18] 性能表现 - RoboBrain-32B-2.0在BLINK-Spatial(83.63)、CV-Bench(83.92)、RoboSpatial(72.43)等空间推理基准上表现优异 [19][20] - 在时间推理方面，RoboBrain-32B-2.0在多机器人规划(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)等任务中领先 [19] - RoboBrain 2.0 7B模型在Multi-Robot Planning以81.50分拔得头筹，32B版本在Ego-Plan2以57.23分登顶 [22] RoboOS 2.0框架 - 是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架，代码量仅为传统手动注册方式的1/10 [25] - 对端到端推理链路进行系统级优化，整体性能提升30%，全链路平均响应时延低至3ms以下，端云通信效率提升27倍 [27] - 新增多本体时空记忆场景图共享机制，支持动态环境下的实时感知与建模，引入多粒度任务监控模块提升任务执行稳定性 [27] 开源生态 - RoboBrain 2.0及RoboOS 2.0已全面开源，模型权重、训练代码与评测基准全部可用 [30] - 智源研究院已与全球20余家机器人企业与顶尖实验室建立战略合作关系 [33] - 提供多个开源资源链接包括GitHub仓库、模型检查点、技术文档等 [31][34]

VLA之外，具身+VA工作汇总

具身智能之心· 2025-07-14 10:21

具身智能领域研究进展 2025年核心研究方向 - 扩散策略优化：多篇研究聚焦扩散策略在机器人操作中的应用，包括Latent Space强化学习[2]、流轨迹简化处理[2]、推理时模态组合[2]以及接触式操作的慢快策略学习[2] - 多模态融合：涉及视觉-触觉策略[3][5]、雷达-相机融合抓取[3]、跨模态表示学习[7][9]以及视觉-语言模型课程设计[3] - 通用化策略开发：包括跨机械臂适配的抓取策略[3]、零样本仿真到现实迁移[3][6]、物体中心表示法[7]以及大规模仿真训练[3][6] 技术方法创新 - 模仿学习革新：提出无机器人的人类视频训练[4]、单次演示学习[2][5]、演示数据生成[3]以及去噪加速策略[5][8] - 世界模型构建：Robotic World Model强调神经模拟器优化[2]，LaDi-WM利用潜在扩散进行预测操作[7]，Unified World Models耦合视频与动作扩散[6] - 高效策略架构：包括混合专家去噪器[6]、一致性蒸馏[8][9]、稀疏可重用策略[8]以及十亿参数级Transformer扩展[11] 应用场景突破 - 灵巧操作：涵盖双手协调策略[2][5]、非抓取式操作[5]、透明物体抓取[3]以及不规则物体追踪[4] - 跨领域迁移：研究分割掩码跨载体迁移[4]、人类视频到机器人动作转换[3][5]以及跨形态技能表示[6] - 实时控制优化：开发高频重规划策略[3]、事件相机驱动跑酷[5]以及流匹配快速策略[6][7] 数据集与训练范式 - 超大规模训练：Dex1B项目使用10亿演示数据训练灵巧操作[9]，DataMIL研究数据选择对模仿学习影响[6] - 仿真-现实协同：Sim-and-Real联合训练方法在平面推动[5]和操作策略[5][6]中验证有效性 - 新兴训练技术：包括无数据模仿学习[5]、强化与模仿学习交错[5]以及人类视频预训练[7][11]

机器人操作

Diffusion Policy

机器人操作

Diffusion Policy

SURPRISE3D：首创复杂3D场景空间推理数据集，突破语义捷径依赖瓶颈

具身智能之心· 2025-07-13 17:48

具身智能与空间推理 - 空间推理是具身AI和机器人系统的核心能力，智能体需在真实环境中解读3D空间布局和上下文指令以完成导航、物体操作等任务[3] - 现有3D视觉-语言基准存在三大局限：过度依赖显式查询、推理覆盖有限且浅显、模板驱动或简单空间查询，导致模型依赖语义先验而非真正空间推理[4] - SURPRISE3D是首个支持20多万查询-物体掩码对的大规模空间推理分割基准，覆盖2800多种物体类别，通过隐式性、模糊性和语义轻量性设计强制模型进行深度空间推理[4][5] 数据集创新与构建 - SURPRISE3D基于ScanNet++ v2的900多个室内环境构建，包含89K+人工生成复杂空间查询和110K LLM生成的常识/意图推理问题[6] - 采用双重标注流程：空间推理标注固定相机视角下的四种问题类型，常识/意图标注通过LLM生成+人工验证的两阶段工作流[16][18] - 引入3D-SRS基准套件，采用掩码IoU和grounding精度等指标，实证显示现有3D基础模型在缺乏语义捷径时性能下降50%以上[5][15][26] 技术突破与评估 - 定义四类空间推理任务：叙事视角（模拟智能体视角）、参数视角（解析方向指令）、相对位置（处理遮挡关系）、绝对距离（计算物理距离）[12] - 在零样本测试中，最先进的MLLMfor3D模型在叙事视角任务上仅达15 07%准确率（A25），参数视角任务低至4 25%，暴露当前技术瓶颈[26][27] - 微调后模型性能提升约3倍，证明现有数据集因保留语义线索而低估了真实空间推理难度，SURPRISE3D为行业提供更严格的评估标准[28] 行业应用与局限 - 该技术可提升服务机器人执行"沙发左侧桌子"等空间指令的准确率，优化家庭助手根据"离地板2米的灯"等模糊查询的响应能力[3][6] - 当前局限包括标注扩展性依赖人工、部分查询类型在实际部署中不够自然、数据集仅覆盖室内静态场景[29] - 行业未来方向包括领域迁移至户外环境、引入时间推理维度以及开发多轮交互框架，以全面推动具身智能商业化落地[29]

3D空间推理分割

3D视觉-语言模型

3D空间推理分割

3D视觉-语言模型