具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

ICCV 2025 | HERMES：首个统一3D场景理解与生成的世界模型

具身智能之心· 2025-08-17 00:03

自动驾驶技术发展现状 - 自动驾驶技术需要具备对当前环境的深刻理解能力和对未来场景的准确预测能力[6] - 主流方案通常将环境理解与未来生成任务分开处理[7] - 实际驾驶决策需要两种能力的深度融合[9] HERMES模型核心设计 - 采用统一框架通过共享LLM同时驱动理解与生成任务[12] - 使用鸟瞰图(BEV)作为统一场景表达解决多视图输入与LLM长度限制问题[15] - 引入世界查询机制实现知识注入和传递通过当前-未来连接模块打通理解与生成[16] - 采用共享渲染器将BEV特征解码为3D点云序列[17] 技术实现方法 - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征[15] - 通过自适应采样提取世界查询向量代表场景核心信息[16] - 联合训练使用语言建模损失和点云生成损失优化模型[18][19] - 端到端联合训练实现任务间最佳平衡点[20] 性能表现对比 - 3秒未来点云误差降低32.4% 显著优于ViDAR模型[22] - 在nuScenes和OmniDrive-nuScenes数据集上评估表现[22] - CIDEr指标提升8% 超越OmniDrive等专用理解模型[22] - 无需历史序列推理更高效且泛化能力更强[22] - 生成精度提升显著理解能力无损[22] 应用场景展示 - 准确预测未来三秒车辆与环境动态[3] - 深度理解当前场景并进行问答交互[3] - 生成时序连贯且几何精确的未来点云[23] - 精准描述驾驶场景细节包括动态物体移动和路边商家识别[23]

自动驾驶技术

自动驾驶技术

在复杂真实场景中评估 π0 这类通用 policy 的性能和边界

具身智能之心· 2025-08-17 00:03

核心观点 - PI0-FAST-DROID是一种基于视觉语言模型的通用机器人策略，能够在复杂真实场景中处理新物体、新位置和新任务，展现出开箱即用的潜力，但性能受提示工程、摄像头视角和任务复杂度影响显著 [4][7][73] - 该策略在透明物体识别、部分遮挡鲁棒性和人类活动干扰处理方面表现突出，但在空间推理、多步骤任务协调和精细操作方面存在明显局限性 [18][24][46] - 通过300多次试验评估，平均任务完成进度为42%，成功率在简单任务中可达20-50%，标志着机器人通用化的重要进展，但距实际应用仍有差距 [73][75][78] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器，仅依赖未校准单目RGB输入（224x224像素）处理透明、伪装及未见物体 [18][19][26] - 使用FAST动作标记器，基于100万条真实机器人动作轨迹训练，支持跨本体泛化 [75] - 训练数据结合π跨本体数据集和Open X-Embodiment预训练，并在DROID数据集上微调 [75] 能力表现 - 透明物体操作：能稳定抓取透明瓶子并完成放入容器的精准操作，无需传统二维或三维重建技术 [19][26] - 复杂背景识别：在色彩鲜艳棋盘背景中成功识别并抓取形状奇特的"黄色鱼"物体 [20] - 人类活动鲁棒性：侧视摄像头捕捉到移动人类时仍能专注任务执行，因V骨干训练包含人类图像且策略优先腕部摄像头 [24][25] 失败案例与局限性 - 提前停止问题：因语义模糊性或动作解码错误，300步试验中常意外停止，需人工干预 [36][41][43] - 空间推理缺陷：缺乏精确距离度量能力，导致物体放入容器时高度不足或发生碰撞 [46][48] - 多步骤任务困难：无记忆机制导致铰接物体操作（如打开抽屉）时抓住把手后冻结 [40][46] - 提示工程敏感：同一任务在不同措辞下成功率波动极大，如"关上厕所"成功率0% vs "关闭马桶白色盖子"成功率100% [57][58] 任务类别性能 - 拾取放置：依赖腕部摄像头，遮挡时成功率降至0% [63][66] - 倾倒任务：空容器操作进度73.3%，真实液体倾倒进度仅20% [85][86] - 铰接物体：平均进度37.8%，成功率28.5%，抽屉操作进度63-75% [87][92] - 织物操作：平均进度47%，折叠T恤进度35%，但完成折叠任务进度0% [93][100] - YCB基准：进度53.5%，成功率24%，无法跟随品牌名称仅能识别颜色 [95][96][101] - 人机交互：进度53.5%，成功率24%，握手任务进度0% [102][108] - 咖啡机操作：进度仅8%，无法完成放入胶囊或按下按钮等复杂操作 [104][109] 硬件与部署 - 使用Franka Panda机器人（7自由度）配Robotiq 2F-85夹持器，侧视与腕部ZED相机纯RGB输入 [5][75] - 推理需NVIDIA RTX A6000（48GB VRAM），部署便捷性类似开源LLM，支持快速实验室验证 [10][75]

通用机器人

PI0-FAST-DROID模型

PaliGemma 3B VLM

通用机器人

PI0-FAST-DROID模型

PaliGemma 3B VLM

灵巧手的设计与难题！为什么它是打通“手-眼-脑”感知闭环的关键技术？

具身智能之心· 2025-08-16 00:03

人形机器人灵巧手技术发展核心特征 - 真正具备科研价值与产业潜力的灵巧手需满足三大核心特征：高物理灵巧度（IOD）、多模态感知能力（IOS）、智能决策潜力（IOI）[2] 传动方案对比 - **连杆传动**：结构刚性强、定位精度高，适合工业夹爪重复性任务，但难以实现高自由度集成[3] - **齿轮传动**：紧凑可控，常见于三指欠驱动手，但力传递效率与被动柔顺性受限[3] - **绳驱传动**（特斯拉Optimus、Shadow Hand采用）：轻量化、远距离力传输、天然被动柔顺性，契合"预测驱动+动态调整"控制范式，但面临摩擦损耗、预紧力衰减、系统集成复杂等工程难题[3] 硬件挑战 - **触觉传感器**：现有电容式/压阻式传感器存在空间密度不足、信号漂移、环境敏感等问题，难以还原人手级接触拓扑感知[3] - **多自由度关节**：陷入"性能-成本-可靠性"不可能三角，自由度提升伴随驱动系统复杂化、故障率上升、寿命下降[3] 自由度与场景适配 - 行业从"自由度竞赛"转向"多维系统平衡"，42自由度的科研手虽突破人手极限（约27DoF），但工程实用性待验证[4] - 未来趋势是构建"六边形战士"，在力量、速度、体积、重量、寿命等维度寻求最优解[4] - 夹具在结构化工业场景（如二指/三指夹爪）可解决95%任务，但非结构化环境（家庭服务、医疗护理等）需灵巧手实现工具通用性、柔性物体操作[4] 行业演进方向 - 灵巧手价值在于能否成为VLA/VTLA模型迭代的物理接口，并在真实场景中持续被"反复使用"[4] - 能打通"手-眼-脑"闭环、实现软硬协同、构建开发者生态的解决方案将成为具身智能时代基础设施[5] 行业参与者 - 国内领先灵巧手公司包括傲意科技（首席运营官Mona参与圆桌）、灵巧智能[6][9][10]

多维系统平衡

场景定义技术

特斯拉Optimus

多维系统平衡

场景定义技术

特斯拉Optimus

天大&清华最新！GeoVLA：增强VLA模型的3D特征提取能力，鲁棒提升明显（SOTA）

具身智能之心· 2025-08-15 08:05

核心观点 - 提出GeoVLA框架通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计包含点嵌入网络和3D增强动作专家有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入缺乏对3D几何信息的利用限制空间感知能力 [3][7] - 现有3D整合方法存在局限性：LLaVA3D等方案破坏视觉编码器与语言模型对齐需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构：几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先：空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异：PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出：点云输入提供精确深度线索增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强：在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效：点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点旋转位置编码较1D位置编码提升2.3个百分点 [29][30]

视觉-语言-动作（VLA）模型

视觉-语言模型（VLM）

点embedding网络（PEN）

3D增强动作专家（3DAE）

视觉-语言-动作（VLA）模型

视觉-语言模型（VLM）

点embedding网络（PEN）

3D增强动作专家（3DAE）

Figure人形机器人首秀灵巧手叠衣服！只增加数据集就搞定

具身智能之心· 2025-08-15 08:05

人形机器人技术突破 - Figure人形机器人通过神经网络学习叠衣服技能，无需架构改变仅增加数据即可完成新任务[2][7] - 机器人具备自然交互能力，包括眼神交流、点头和手势反馈[4][5] - 叠衣服任务采用端到端方式运行，从视觉语言输入到运动控制完全自主[9] 技术挑战与解决方案 - 叠衣服是极具挑战性的灵巧操作任务，需处理易变形、形状多样的物体[15][16] - 机器人需精细协调手指控制以追踪边缘、捏住角落并实时调整[17][18] - Helix架构是关键，作为端到端"视觉-语言-动作"模型实现通用人形机器人控制[21] Helix架构技术细节 - 由视觉记忆、状态历史和力反馈三部分组成[23][26][29] - 视觉记忆模块可从视频帧组合特征形成短期记忆[23][24] - 状态历史通过动作分块确保模块间连续性和稳健性[26][27] - 力反馈实现触感，帮助动态调整运动过程[29][30] 应用场景扩展 - 同一模型从物流分拣扩展到叠衣服任务，展现强大泛化能力[12][14] - 机器人已掌握洗衣服、叠衣服等家务技能，接近完成家务闭环[36][38] - 技术可应用于多种场景，包括物流、家庭服务等[12][38] 行业进展对比 - 擎天柱机器人10个月前已具备叠衣服能力[10][32] - WRC展会上也有类似功能的机器人展示[34] - Figure机器人技术持续迭代，在灵活性、速度和泛化能力方向持续提升[20]

端到端控制

Figure人形机器人

端到端控制

Figure人形机器人

告别无效科研！具身智能方向1v1辅导开放，3位导师带你冲刺顶会！

具身智能之心· 2025-08-15 08:05

具身智能论文辅导服务 - 提供1v1论文辅导服务目前开放3个名额方向包括vla 强化学习 sim2real [2] - 目标会议覆盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [2] - 辅导老师具备具身智能领域活跃研究经验能够提供创新性研究思路 [2] - 咨询方式包括微信添加和扫码需备注"具身论文辅导咨询" [3]

具身智能1v1论文辅导

具身智能1v1论文辅导

何为Agent？在思想、学术与工程领域探寻“好用”真义

具身智能之心· 2025-08-15 08:05

AI Agent技术定义与核心架构 - AI Agent通过大模型作为大脑、向量数据库提供记忆、目标拆解实现规划、API调用作为工具的四要素协同运作[2] - 该技术使AI从单一工具升级为具有自主意识和能力的智能工具集合体[2] - 在旅游领域应用表现为从单纯提供路线升级到机票预订、提醒设置、美食推荐等全流程服务[2] 行业应用场景与挑战 - 垂直领域Agent在医疗、金融、心理健康等专业领域面临独特挑战[3] - 通用Agent与专业领域Agent存在明显差异化的应用要求[3] - 实际应用中存在功能强大但稳定性差、复现困难等"开盲盒"现象[3] 技术瓶颈与解决方案 - 模型上下文记忆能力弱和规划能力不足是关键技术难点[3] - 需要区分简单场景仅需消息作为记忆与复杂场景需外置知识库构建工作记忆[3] - 多智能体系统的训练思路成为学术前沿重点研究方向[3] 学术研究进展 - 近期顶会中Agent方向呈现多个亮点与趋势[3] - 研究涵盖EMNLP、ACL、NeurIPS、ICLR等顶级学术会议[10] - 学术界在ACL、JAIR、TAC等期刊会议持续产出研究成果[11] 工程实践痛点 - 功能强大性与应用稳定性之间存在显著差距[3] - 实际落地过程中面临复现困难等核心痛点[3] - 需要厘清不同场景下记忆系统的构建方式[3] 行业专家资源 - 研究团队包含10年以上ToB产品与数据专家，曾任职阿里及多家SaaS公司[10] - 专家团队长期服务制造、医疗、零售等头部行业客户[10] - 学术团队包含中科大博士生、东北大学数据挖掘实验室博士研究生等科研力量[10][11]

VLA/强化学习/VLN方向的论文辅导招募！

具身智能之心· 2025-08-14 20:00

具身智能论文辅导服务 - 提供具身智能领域的1v1论文辅导服务目前开放3个名额方向包括vla 强化学习和sim2real 主要面向A会和B会投稿需求[1] - 辅导覆盖多个顶级学术会议包括CVPR ICCV ECCV ICLR CoRL ICML ICRA等[2] - 辅导老师均来自具身学术研究领域具备活跃的学术研究能力和创新idea[2] - 咨询方式包括添加微信oooops-life或扫码联系需备注"具身论文辅导咨询"[3]

具身智能之心1v1论文辅导

具身智能之心1v1论文辅导

VLA/VLA+触觉/VLA+RL/具身世界模型等！国内首个具身大脑+小脑算法实战教程

具身智能之心· 2025-08-14 14:00

具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应，聚焦感知、理解、执行和反馈学习能力，其核心模块为大脑（语义理解与任务规划）和小脑（高精度运动执行）[1] - 技术演进分为四个阶段：从抓取位姿检测（静态物体单步决策）→行为克隆（端到端模仿但泛化弱）→Diffusion Policy（扩散模型提升时序稳定性）→VLA模型（多模态协同实现零样本泛化）[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合，以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动：华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等；京东2025年连续投资智元机器人等强化物流与家庭服务场景；腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发：Tesla/Figure AI推进工业物流机器人；Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人；中美进入关键技术竞赛阶段[5] - 明星创业团队涌现：星海图、银河通用、逐际动力等从实验室走向商业化，推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人，应用于工业、家居、餐饮、医疗康复等领域，融资与岗位呈爆发式增长[9] - 工程化需求激增：产业界要求从论文转向部署，需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈：包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计：每个模块配备实战代码（如DP3、SmolVLA）、大作业监督，目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确：面向算法从业人员、转行者及在校生，要求具备Python/Pytorch基础及3090ti以上算力[13][30]

Vision-Language-Action（VLA）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

Vision-Language-Action（VLA）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

学会see和act：机器人操作中的任务感知视角规划

具身智能之心· 2025-08-14 08:03

研究背景与动机 - 现有视觉-语言-动作模型依赖固定视角和共享视觉编码器限制3D感知能力并引发任务干扰影响鲁棒性和泛化性[2] - 固定视角在复杂场景中问题突出在杂乱或动态环境中易导致目标物体被遮挡使场景理解不完整[2] - 共享编码器处理视觉和语义差异大任务时会因任务干扰限制模型在多任务中的泛化性和扩展性[2] 核心方法框架 - 提出任务感知视图规划框架整合主动视图规划与任务特定表征学习[3] - 框架包含TaskMoE模块和MVEP策略[3] TaskMoE模块设计 - 通过动态专家路由机制融合指令和场景线索引导专家选择实现自适应任务敏感专家选择[10] - 采用解耦门控策略将路由门数量与任务总数解耦促进语义相似任务参数共享同时隔离差异大任务[10] MVEP视角策略 - 选择能最大化捕获操作目标相关信息区域的K个视角提升动作预测准确性[6] - 采用球坐标解耦相机位置和方向每个相机姿态用5维向量表示[10] - 通过可微分采样将相机姿态参数建模为高斯分布样本[10] 训练策略 - 分三阶段训练：先训练固定视角变体再优化MVEP 最后微调除MVEP外整个模型[7][8] - 损失函数包含粗/细接地模块热图交叉熵损失末端执行器旋转损失及gripper状态二分类损失[7] - 引入伪环境交互机制减少物理交互成本定义任务损失/置信度/多样性三个奖励项[8][11] 性能表现 - 在RLBench的18个任务中平均成功率86.7% 较基准ARP+的84.9%提升1.8个百分点[13][14] - 在易受遮挡任务中成功率提升达56% 简单任务中仍有4%提升[13] - 具体任务表现：插入钉子任务成功率96.0% vs ARP+的78.4% 放进橱柜任务76.0% vs 69.6%[14] 消融实验 - 移除TaskMoE后平均成功率从86.67%降至85.56%[15][18] - 用随机视角替代主动探索后成功率仅8.89%[15][18] 参数敏感性 - 视角数量K从2增至4时平均成功率从27.2%提升至55.2%[16][17] - 径向约束在0.90-1.04m时平均成功率56.0% 优于基准范围0.75-1.3m的49.6%[17][19] 效率与泛化 - 推理延迟增加约10.7% 从0.394s增至0.436s 但平衡了性能与效率[20] - TaskMoE显著提升对未见任务泛化性在打开抽屉任务中成功率12.0% vs 无模块的0[24] - 在已见任务中带TaskMoE平均成功率49.6% 是无模块24.0%的两倍多[24]

任务感知视图规划（TAVP）

机器人操作

任务感知视图规划（TAVP）

机器人操作