多模态感知

搜索文档
人形机器人行业深度报告:灵巧手持续迭代,关注技术路线收敛中的边际增量
东吴证券· 2025-06-27 15:32
报告行业投资评级 未提及 报告的核心观点 - 下游场景推动灵巧手向仿人手迭代,2024年灵巧手市场规模达17.06亿美元,预计2025/2030年将增至19.21/30.36亿美元,工业机器人常用二指灵巧手,人形机器人需求促使其向4指/5指及高自由度发展 [2] - 驱动方案上,欠驱动、外置/混合置+电驱为主流,电机或由空心杯向无刷有齿槽切换 [2] - 传动方案涵盖齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类,腱绳+丝杠复合传动契合未来趋势 [2] - 感知方案多模态是趋势,力/力矩传感器趋于应变片式并向六维发展,柔性传感器技术路线多元,MEMS压力传感器中压阻式更成熟 [2] - 特斯拉灵巧手迭代明确绳驱主流,国内外产品追求高自由度与多模态感知 [2] - 投资建议推荐减速器+丝杠链企业【福达股份】,关注微型丝杠链【浙江荣泰】等,关注腱绳链【大业股份】等,推荐T链头部企业【拓普集团】 [2] 根据相关目录分别进行总结 灵巧手:人形机器人与外界交互的媒介 - 灵巧手是末端执行器,人形机器人应用场景复杂,促使其从双指/多指向五指仿人手迭代,以实现更精细化功能 [11] - 手有十三种基本功能,人手自由度21个(不考虑手腕关节),特斯拉Optimus Gen3灵巧手预计有22个自由度 [16] - 灵巧手类别多样,按自由度分全驱动和欠驱动,按驱动结构分外置、内置或混合制等,适用于不同场景 [17] - 灵巧手价值量高,预计占整机10 - 20%,2024年市场容量76.01万只,预计2025/2030年达86.18/141.21万只,对应市场规模19.21/30.36亿美元,5年复合增长率分别为10.38%、9.59% [20] 灵巧手方案百花齐放,路线仍未收敛 驱动方案 - 按自由度分全驱动和欠驱动,全驱动精度高但成本高、结构复杂,欠驱动精度低但成本低、结构简单,当前欠驱动为主流,部分厂商结合两者 [26] - 按驱动器位置分外置、内置和混合置,内置是主流,短期外置和混合置负载能力强、ToB简单场景落地快,后续内置需求将上升 [29] - 按驱动方式分电驱动、气压驱动等,当前电机驱动为主流,具备控制精度高、响应速度快等优点,与机器人更契合 [30] - 电驱动电机分空心杯、无刷直流、无框力矩电机,空心杯是主流,无刷有齿槽电机是高集成化和成本的折中选择,或替代空心杯电机 [35] 传动方案 - 齿轮/蜗轮蜗杆传动由微型减速器带动齿轮组或由蜗杆和蜗轮组成,传动效率高但结构冗杂、柔性不足 [39] - 连杆传动通过连杆组件传递动力,承载力高但效率低、结构复杂 [45] - 丝杠传动分梯形、滚珠、行星滚柱丝杠,滚珠和行星滚柱丝杠精度和寿命高,但成本高、柔性差 [49] - 腱传动采用腱绳作为传动介质,灵活性高但精度低、腱绳易磨损 [53] - 微型丝杠+腱传动复合方案实现互补,符合发展趋势,特斯拉Optimus Gen3采用此方案,国内相关企业有望受益 [58] 感知方案 - 传感器在灵巧手上应用分为力觉和触觉传感器,力/力矩传感器用于精准抓取,柔性传感器感受物体形状,MEMS压力传感器用于指尖 [59] - 力觉、触觉传感器原理多样,力/力矩传感器技术路线基本收敛至应变片式,柔性和MEMS压力传感器技术路线多轨并行 [65] - 应变式六维力矩传感器是主流力觉传感器方案,六维力传感器适用于力的作用点和方向随机变化的场景 [68] - 柔性传感器是人机交互与环境感知核心,结构使其具备高灵敏度和稳定输出,安装在手指关节,核心是提高灵敏度、稳定性和集成化 [72] - MEMS压力传感器基于微机电技术,成本高、缺乏柔性,压阻式应用广泛,多用于指尖 [73] - 一元感知无法满足需求,多模态势在必行,多维触觉+视觉结合可升级感知能力,复合传感器研发兴起 [78] 从特斯拉灵巧手迭代展望未来趋势 - 第三代灵巧手驱动、传动方案改变,自由度从11个增至22个,电机从手掌移至小臂,部分空心杯电机换为无刷有槽电机,采用丝杠+腱绳传动方案,复杂任务完成度提高 [84] - 从特斯拉三代灵巧手演变看,向高自由度、多模态趋势演变,降本步入初期,国内外主机厂方案基本收敛至电驱动+高自由度,传感器方案向多模态发展 [87][88] 投资建议 - 推荐减速器+丝杠链企业【福达股份】,关注微型丝杠链【浙江荣泰】、【五洲新春】、【震裕科技】,关注腱绳链【大业股份】、【南山智尚】,推荐T链头部企业【拓普集团】 [91]
同济大学最新!多模态感知具身导航全面综述
具身智能之心· 2025-06-25 21:52
核心观点 - 目标导向导航技术已从简单的几何路径规划发展为复杂的多模态推理,整合了视觉、语言和音频信息 [7] - 首次将导航方法按推理域分类,揭示了不同任务间的共性和差异,提供了统一框架 [4] - 多模态感知集成是未来趋势,特别是视觉、语言和音频处理的融合 [4] - 显式地图方法在路径规划中表现优异但计算成本高,隐式表示方法计算效率高但复杂环境泛化能力受限 [4] 研究背景 - 导航任务从PointNav发展到ObjectNav、ImageNav和AudioGoalNav等复杂范式 [3] - 任务形式化定义为决策过程,包含环境、状态空间、观测空间、动作空间和目标空间 [8] - 过去十年技术发展从低级感知到高级语义理解结合 [7] 导航数据集 - Habitat-Matterport 3D (HM3D)是最大数据集,含1000个建筑规模重建,覆盖112.5k平方米可导航区域 [9] - Matterport3D导航复杂性最高,RoboTHOR和ScanNet相对简单 [9] - HM3D视觉保真度最佳,ScanNet重建缺陷最多 [9] 评估指标 - 成功率(SR)和路径长度加权成功率(SPL)是核心指标 [14] - 音频导航特有指标包括声音导航效率(SNE)和动态SPL(DSPL) [14] - 多目标导航指标包括进度(PR)和路径长度加权进度(PPL) [14] 点目标导航 - 需根据相对坐标导航到目标位置,无环境布局先验知识 [13] - 显式地图方法如ANM通过神经SLAM构建地图 [15] - 隐式表示方法如DD-PPO通过分布式训练提高可扩展性 [16] 目标对象导航 - 需在未知环境中找到并导航到特定对象,需要语义理解 [17] - 模块化方法如Sem-EXP构建语义地图 [17] - 端到端方法如VTNet直接从原始感官输入学习策略 [17] - 零样本方法如EmbCLIP利用预训练视觉语言模型 [17] 图像目标导航 - 需根据参考图像导航到目标位置,需要视觉推理能力 [22] - 显式地图方法如MANav通过自监督状态嵌入网络增强导航 [23] - 隐式表示方法如EmerNav估计观察和目标图像匹配特征 [24] 音频目标导航 - 需整合空间音频处理、视觉感知和路径规划 [25] - 显式地图方法如VAR结合视觉映射和声音定位 [25] - 隐式表示方法如SAVi处理静态声源导航 [26] 当前挑战 - 模拟环境与现实世界存在显著差异,尤其在物理动态和传感器噪声方面 [31] - 多模态集成最优策略仍是开放性问题,常优先考虑单一感官模态 [31] 未来工作 - 需开发人机交互系统,结合自动化泛化和战略性人类互动 [32] - 需开发真正平衡集成的多模态表示学习方法 [32] - 需建立统一的环境理解框架 [32]
英国研发新型机器人皮肤
新华网· 2025-06-21 15:37
新型机器人皮肤技术 - 由英国剑桥大学和伦敦大学学院研发的新型机器人皮肤采用柔软低成本的凝胶材料制成 可同时感知压力 温度等 并能区分多个接触点 使机器人获取环境信息的方式更接近人类 [1] - 该柔性导电皮肤易于制造 可熔化并重塑为复杂形状 能感知处理多种物理输入 提升机器人与物理世界的互动能力 [1] - 技术采用多模态感知方案 通过单一传感器对不同触觉产生差异响应 虽然信号分离存在挑战 但材料更易制造且耐用性更强 [1] 技术实现与测试 - 研究团队使用明胶基水凝胶铸造成人手形状 通过优化32个手腕电极配置 从整只手收集超过170万条信息 依赖材料内部的微通道网络实现高密度数据采集 [1] - 皮肤经过热风枪加热 人类手指/机器人手臂按压 轻触及手术刀切割等测试 采集数据训练机器学习模型 使机器人能识别触觉类型含义 [2] 应用前景 - 当前技术虽未达到人类皮肤灵敏度 但在灵活性和制造简便性上超越现有方案 可通过人类触觉校准适配多种任务 [2] - 潜在应用场景包括人形机器人 假肢等触觉感知领域 还可扩展至汽车制造 灾后救援等行业 [2]
一张照片、一句简单提示词,就被ChatGPT人肉开盒,深度解析o3隐私漏洞
机器之心· 2025-05-09 17:02
多模态AI隐私泄露风险 - OpenAI的ChatGPT o3模型能通过生活照中的细微线索将住址锁定在1英里范围内[1] - 研究揭示了多模态大语言模型在图片地理位置定位方面的严重隐私泄露风险[1] - 简单提示词配合生活照即可触发AI的多模态推理链条精准定位隐私地址[5] AI定位技术原理 - 视觉解析提取门牌号、建筑风格、环境特征等多层次线索[10] - 通过地理围栏技术逐步缩小范围实现精确定位[10][11] - 调用街景API、房产数据库等外部工具增强定位能力[10][11] - 采用跨模态融合技术整合视觉识别、地理数据和商业信息[10][11] 典型案例分析 - 波士顿案例:通过门牌号、建筑风格和环境特征实现米级定位,误差仅0.01英里[10] - 俄亥俄州案例:通过垃圾桶LOGO和建筑风格组合实现零误差定位[11] - 苏州案例:通过背景中独墅湖教堂的不锈钢十字架锁定800米范围内的具体地址[14] - 克利夫兰案例:通过风力涡轮机和周边建筑特征精准定位到具体街道[44] AI定位能力特点 - 具备链式推理能力,能从城市级线索逐步推理到住宅级定位[10] - 拥有冗余推理能力,即使核心线索被遮盖仍可通过次要线索定位[56] - 视觉编码器可分层提取低级特征(颜色纹理)、中级特征(物体识别)和高级特征(空间关系)[58] - 结合地图API、开源数据库和气候数据等多源信息进行交叉验证[58] 行业影响与挑战 - 多模态AI的"能力-风险"悖论:模型越智能隐私泄露风险越高[57] - 传统隐私保护手段如局部遮挡在多模态AI面前严重失效[56] - 城市基础设施和标识物成为隐私泄露的核心元凶[53] - 需要重构隐私防线,将隐私保护纳入多模态模型的"出厂标准"[59]