Workflow
多模态感知
icon
搜索文档
Humanoid Occupancy:首个多模态人形机器人感知系统!解决运动学干扰和遮挡问题
具身智能之心· 2025-08-21 08:03
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能 之心 "公众号 点击按钮预约直播 人形机器人技术正在飞速发展,各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块。在各种感知范式中,基于占用的表示(occupancy-based representation)已被广泛认为特别适合人形机器人,因为它能同时提供丰富的语义信息和三维几何信息,这对于全面理解环境至关重要。 本工作提出了 Humanoid Occupancy(人形机器人占用感知系统),这是一个 广义的多模态占用感知系统,它集成了硬件与软件组件、数据采集设备以及一套专用 的标注流程 。本文的框架采用先进的多模态融合技术,生成基于网格的占用输出(grid-based occupancy outputs),这些输出同时编码了空间占用状态和语义标签, 从而为任务规划与导航等下游任务提供了全面的环境理解能力。为应对人形机器人的独特挑战,本文克服了诸如运动学干扰(kinematic interference)和遮挡 (occlusion)等问题,并确立了一套有效的传感器布局策略。此外, 本文还开发了首个专为人形机器人设计 ...
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]
辅助驾驶的AI进化论 - 站在能力代际跃升的历史转折点
2025-08-05 11:15
行业与公司概述 - 辅助驾驶行业正经历从L2到L3商业化落地的关键拐点,全栈自研主机厂与第三方供应商形成领先优势[1] - 特斯拉、小鹏、鸿蒙智行合作车企、理想、蔚来、小米等车企在辅助驾驶领域领先[1][5] - 第三方供应商如Momenta、云融启行占据重要地位,国内供应商如速腾聚创、禾赛科技向软硬件一体化解决方案发展[1][5] 技术研发与产品进展 - **特斯拉**:HW5.0搭载4颗4D毫米波雷达,Robotaxi试点服务在Austin启动,数据反补FSD能力提升[6][9] - **小鹏汽车**:转向纯视觉方案,通过云端大模型训练实现硬件降本,Mona M03P7+成为高性价比爆款[3][11] - **华为**:ADS 4.0支持高速L3商用,通过零部件/HI/鸿蒙智行模式划分合作紧密程度[12] - **理想汽车**:L系列全系标配激光雷达,推出端到端加VLA架构,实现从跟随到引领的变化[6][13] - **蔚来**:三年研发投入超100亿元,自研芯片上车,但商业化节奏不及预期[14][15] - **小米**:Su7预期销量超市场预期,全系标配激光雷达,本地端VLA模型预计9月OTA搭载[16][25] 传感器与算力发展 - **传感器**:激光雷达(速腾聚创、禾赛科技)、4D毫米波雷达(特斯拉、华为)、纯视觉方案(小鹏)成为主流[6][23][26] - **算力芯片**:2024年辅助驾驶域控芯片装机量达528万颗(同比+61.7%),英伟达、特斯拉、华为为前三大玩家[28] - **云端智算中心**:特斯拉达100亿Flops,国内车企约10亿Flops,通过弹性算力池支持模型迭代[27] 技术路径与模型优化 - 技术路径向数据驱动发展,VLA模型融合视觉、语言与行为模块,优化车辆决策[3][29] - 世界模型通过视频预测学习时空规律,VLM模型通过自然语言描述场景理解[30][31] - 车企展示云端模型参数规模(如小鹏750亿参数),强调数据量(真实+仿真)驱动迭代[29] 政策与商业化进展 - L2端规范化同时,多地开放L4商用化试点[8] - 理想VLA司机大模型、小鹏本地端VLA模型、鸿蒙智行L3高速NOA解决方案将于近期量产或OTA[8] 消费者感知与安全 - 关键节点:从高速NOA向城市NOA发展,华为"车位到车位"概念实现全场景连续驾驶[32] - 安全功能:AES(主动避让系统)逐步量产,特斯拉MPI达700万英里/次事故[33][34] 投资关注点 - L2到L3商业化落地节点的头部解决方案供应商、全栈自研主机厂及细分上游供应链[36] - 法规开放试点与ToC端规控完善将推动行业能力迭代升级[36] 其他重要内容 - 传统主机厂选择第三方解决方案可缩短产品周期,快速抢占市场[17] - 技术驱动型企业(华为、蔚来、小鹏)研发费用率超15%,规模效应型企业(理想、特斯拉)随销量回调[22] - 企业组织战略调整(如理想成立算力资源部门)对研发效率与商业化至关重要[21]
中国电子学会:中国人形机器人整体水平处全球第一方阵
新浪财经· 2025-08-02 21:55
科技创新 - 中国人形机器人在运动性、灵巧性等方面实现重大突破,整体水平处于全球第一方阵 [1] - 机器人大模型、智能协同控制、人机交互、多模态感知等核心技术不断突破 [1] - 通过AI控制算法的优化,国产机器人可实现毫秒级动作响应,稳定性、灵活性、连贯性持续提升 [1] 产业发展 - 中国工业机器人市场销量由2015年的7万套增长至2024年的30.2万套,连续12年成为全球最大工业机器人市场 [1] - 中国是全球第一大机器人生产国,工业机器人产量由2015年的3.3万套增长至2024年的55.6万套 [1] 应用场景 - 机器人赋能千行百业、走进千家万景,成为推动者、参与者和见证者 [1]
从技术秀到真突破:解码WAIC 2025的核心价值
36氪· 2025-08-01 11:49
技术突破 - 机器人从"机械响应"进化到"主动演绎",能同步分析语音停顿、面部肌肉变化、手势幅度并生成复合情绪如"强颜欢笑" [7] - 傅利叶GR-3人形机器人采用柔肤软包覆材质,内置多模态感知系统和Affective Computing模型,可实时回应人类情感需求 [4] - 百度NOVA数字人技术实现10分钟克隆个体、打破内容创作边界、智能体军团协同作战三大颠覆性变革 [6] 行业应用 AI+娱乐 - 魔珐科技展示生成式AI驱动的3D数字人,可实时调整表情动作,降低视频制作成本,拥有数千款多风格角色及影视级3D场景 [11][13] - 技术应用于政法领域智能化服务窗口和沉浸式法治教育 [13] AI+教育 - 学而思"九章大模型"具备智能学习系统和拆题讲思路功能,能检测学生走神并切换生动讲解方式 [14] - AI教育平台从"教学工具"升级为拟人化"学习伙伴",增强学习过程的人性关怀 [14] AI+医疗 - 阿里达摩院推出"平扫CT+AI"系统实现多病种筛查,蓝想数科用数字孪生提升急危重症诊疗水平,蚂蚁集团整合3600家医院资源提供全流程服务 [16] - 30余项创新成果展示包括药物研发周期优化方案和医学影像AI分析云平台 [16] 市场趋势 - 情感计算和拟人化交互市场年均增速35%,预计2026年规模超500亿美元,医疗/教育/客服领域增长最显著 [17] - AI技术正推动医疗健康服务向精准化、个性化、智能化升级 [16] 社会价值 - 《AI赋能可持续发展倡议》明确AI需助力绿色转型、医疗普惠、教育公平,中国气象局"妈祖"AI预警系统已在吉布提/蒙古国落地 [19] - 华为AI光视联动平台在南非预防铁路安全事故,体现技术对公共安全的赋能 [19]
驾驭工业场景挑战!灵心巧手即将推出全新“工业大师”灵巧手
机器人大讲堂· 2025-07-11 18:35
人形机器人及灵巧手行业发展 - 人形机器人将在2025年迎来量产元年 灵巧手落地应用的新元年也即将到来 工业灵巧手已从设计初探迈入落地战场 工业生产半开放场景的标准化、高精度刚需成为灵巧手落地的理想试验场 [1] - 灵心巧手推出的Linker Hand系列灵巧手在国内率先开辟高自由度灵巧手市场 推动产品和技术进入加速发展时期 主售产品L10、L20及L30均实现20个以上自由度 展现出优良精度和性能表现 高灵活性可支持完成更复杂的人手工作 目前月订单已过千 [1] 灵心巧手产品技术突破 - 针对工业场景需求 公司即将推出两款高自由度"工业大师"灵巧手:Linker Hand L6工业版具有6个主动自由度和12个总自由度 L20工业版具有17个主动自由度和21个总自由度 可适配不同灵活性需求 [2] - 新产品配备全新"超强电缸"驱动模块 实现驱控一体化高度集成 驱动效率高达90% 达行业传统产品2倍以上 丝杠末端推力200N 指尖末端力20N 满足工业场景大力矩需求 实测寿命超百万次 达同业2-3倍 同时降低运行噪音 [4] - 采用新型智能材料提升整手可靠性 具有重量轻、强度高、耐用性好等工业级品质 适应生产环境中碰撞、摔落等实际工况 [5] 工业场景应用前景 - 工业场景具有物理边界明确、干扰变量少、作业流程标准化等特征 具备新质生产力替代性 灵巧手依靠多模态感知能力可精准补偿环境扰动 实现多种工具操作 将成为未来工业柔性生产基础设施 [7] - 柔性生产、精密装配、特种物流等场景已体现高度落地可能 灵巧手不仅是"仿生手指" 更将成为柔性制造的决策执行终端 其应用突破映射工业从"规模优先"转向"弹性即竞争力"的变革趋势 [7] 行业生态 - 文档列出了包括工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能等领域的代表性企业 如埃斯顿自动化、优必选科技、灵心巧手等 以及核心零部件企业如绿的谐波、因时机器人等 [11][12][13][14]
【重磅深度】灵巧手持续迭代,关注技术路线收敛中的边际增量
灵巧手市场前景 - 2024年灵巧手市场规模达17.06亿美元,预计2025年增至19.21亿美元,2030年达30.36亿美元 [2] - 工业机器人常用二指灵巧手执行简单夹取,人形机器人需求推动向4指/5指及高自由度发展 [2] - 灵巧手价值量占整机10-20%,是成本占比最高的零部件之一 [28] 驱动方案 - 欠驱动方案通过牺牲精度降低成本,应用更广泛 [3] - 外置/混合置驱动方案牺牲精度但短期落地更快 [3] - 电驱动因模块化设计、精度高等特点成为主流方案 [3] - 特斯拉第三代灵巧手用无刷有齿槽电机替换部分空心杯电机 [3][48] 传动方案 - 主要分为齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类 [4] - 腱绳+丝杠复合传动可提高精度同时保持灵活性,特斯拉第三代采用此方案 [5][63] - 齿轮/蜗轮蜗杆传动效率高但体积大 [51] - 连杆传动承载力高但效率低 [55] - 丝杠传动精度高但柔性差 [59] - 腱传动灵活但精度低 [61] 感知方案 - 多模态感知是既定趋势 [6] - 力/力矩传感器向应变片式六维发展 [6][76] - 柔性传感器技术路线多元,聚焦灵敏性和稳定性 [6][80] - MEMS压力传感器中压阻式更成熟,多用于指尖 [6][84] 特斯拉灵巧手迭代 - 第三代自由度从11个增至22个 [95] - 驱动方案从空心杯电机转向无刷有齿槽电机 [95] - 传动方案从腱绳+蜗轮蜗杆转向腱绳+丝杠 [95] - 感知方案新增全手触觉传感器和集成AI视觉系统 [95][97] 行业发展趋势 - 国内外产品普遍追求高自由度与多模态感知 [8][98] - 电机、微型丝杠、腱绳、传感器是主要成本构成 [101] - 技术路线尚未完全收敛,需绑定头部厂商 [101] 投资建议 - 推荐减速器+丝杠链企业福达股份 [8][101] - 关注微型丝杠链浙江荣泰、五洲新春、震裕科技 [8][101] - 关注腱绳链大业股份、南山智尚 [8][101] - 推荐T链头部企业拓普集团 [8][101]
人形机器人行业深度报告:灵巧手持续迭代,关注技术路线收敛中的边际增量
东吴证券· 2025-06-27 15:32
报告行业投资评级 未提及 报告的核心观点 - 下游场景推动灵巧手向仿人手迭代,2024年灵巧手市场规模达17.06亿美元,预计2025/2030年将增至19.21/30.36亿美元,工业机器人常用二指灵巧手,人形机器人需求促使其向4指/5指及高自由度发展 [2] - 驱动方案上,欠驱动、外置/混合置+电驱为主流,电机或由空心杯向无刷有齿槽切换 [2] - 传动方案涵盖齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类,腱绳+丝杠复合传动契合未来趋势 [2] - 感知方案多模态是趋势,力/力矩传感器趋于应变片式并向六维发展,柔性传感器技术路线多元,MEMS压力传感器中压阻式更成熟 [2] - 特斯拉灵巧手迭代明确绳驱主流,国内外产品追求高自由度与多模态感知 [2] - 投资建议推荐减速器+丝杠链企业【福达股份】,关注微型丝杠链【浙江荣泰】等,关注腱绳链【大业股份】等,推荐T链头部企业【拓普集团】 [2] 根据相关目录分别进行总结 灵巧手:人形机器人与外界交互的媒介 - 灵巧手是末端执行器,人形机器人应用场景复杂,促使其从双指/多指向五指仿人手迭代,以实现更精细化功能 [11] - 手有十三种基本功能,人手自由度21个(不考虑手腕关节),特斯拉Optimus Gen3灵巧手预计有22个自由度 [16] - 灵巧手类别多样,按自由度分全驱动和欠驱动,按驱动结构分外置、内置或混合制等,适用于不同场景 [17] - 灵巧手价值量高,预计占整机10 - 20%,2024年市场容量76.01万只,预计2025/2030年达86.18/141.21万只,对应市场规模19.21/30.36亿美元,5年复合增长率分别为10.38%、9.59% [20] 灵巧手方案百花齐放,路线仍未收敛 驱动方案 - 按自由度分全驱动和欠驱动,全驱动精度高但成本高、结构复杂,欠驱动精度低但成本低、结构简单,当前欠驱动为主流,部分厂商结合两者 [26] - 按驱动器位置分外置、内置和混合置,内置是主流,短期外置和混合置负载能力强、ToB简单场景落地快,后续内置需求将上升 [29] - 按驱动方式分电驱动、气压驱动等,当前电机驱动为主流,具备控制精度高、响应速度快等优点,与机器人更契合 [30] - 电驱动电机分空心杯、无刷直流、无框力矩电机,空心杯是主流,无刷有齿槽电机是高集成化和成本的折中选择,或替代空心杯电机 [35] 传动方案 - 齿轮/蜗轮蜗杆传动由微型减速器带动齿轮组或由蜗杆和蜗轮组成,传动效率高但结构冗杂、柔性不足 [39] - 连杆传动通过连杆组件传递动力,承载力高但效率低、结构复杂 [45] - 丝杠传动分梯形、滚珠、行星滚柱丝杠,滚珠和行星滚柱丝杠精度和寿命高,但成本高、柔性差 [49] - 腱传动采用腱绳作为传动介质,灵活性高但精度低、腱绳易磨损 [53] - 微型丝杠+腱传动复合方案实现互补,符合发展趋势,特斯拉Optimus Gen3采用此方案,国内相关企业有望受益 [58] 感知方案 - 传感器在灵巧手上应用分为力觉和触觉传感器,力/力矩传感器用于精准抓取,柔性传感器感受物体形状,MEMS压力传感器用于指尖 [59] - 力觉、触觉传感器原理多样,力/力矩传感器技术路线基本收敛至应变片式,柔性和MEMS压力传感器技术路线多轨并行 [65] - 应变式六维力矩传感器是主流力觉传感器方案,六维力传感器适用于力的作用点和方向随机变化的场景 [68] - 柔性传感器是人机交互与环境感知核心,结构使其具备高灵敏度和稳定输出,安装在手指关节,核心是提高灵敏度、稳定性和集成化 [72] - MEMS压力传感器基于微机电技术,成本高、缺乏柔性,压阻式应用广泛,多用于指尖 [73] - 一元感知无法满足需求,多模态势在必行,多维触觉+视觉结合可升级感知能力,复合传感器研发兴起 [78] 从特斯拉灵巧手迭代展望未来趋势 - 第三代灵巧手驱动、传动方案改变,自由度从11个增至22个,电机从手掌移至小臂,部分空心杯电机换为无刷有槽电机,采用丝杠+腱绳传动方案,复杂任务完成度提高 [84] - 从特斯拉三代灵巧手演变看,向高自由度、多模态趋势演变,降本步入初期,国内外主机厂方案基本收敛至电驱动+高自由度,传感器方案向多模态发展 [87][88] 投资建议 - 推荐减速器+丝杠链企业【福达股份】,关注微型丝杠链【浙江荣泰】、【五洲新春】、【震裕科技】,关注腱绳链【大业股份】、【南山智尚】,推荐T链头部企业【拓普集团】 [91]
同济大学最新!多模态感知具身导航全面综述
具身智能之心· 2025-06-25 21:52
核心观点 - 目标导向导航技术已从简单的几何路径规划发展为复杂的多模态推理,整合了视觉、语言和音频信息 [7] - 首次将导航方法按推理域分类,揭示了不同任务间的共性和差异,提供了统一框架 [4] - 多模态感知集成是未来趋势,特别是视觉、语言和音频处理的融合 [4] - 显式地图方法在路径规划中表现优异但计算成本高,隐式表示方法计算效率高但复杂环境泛化能力受限 [4] 研究背景 - 导航任务从PointNav发展到ObjectNav、ImageNav和AudioGoalNav等复杂范式 [3] - 任务形式化定义为决策过程,包含环境、状态空间、观测空间、动作空间和目标空间 [8] - 过去十年技术发展从低级感知到高级语义理解结合 [7] 导航数据集 - Habitat-Matterport 3D (HM3D)是最大数据集,含1000个建筑规模重建,覆盖112.5k平方米可导航区域 [9] - Matterport3D导航复杂性最高,RoboTHOR和ScanNet相对简单 [9] - HM3D视觉保真度最佳,ScanNet重建缺陷最多 [9] 评估指标 - 成功率(SR)和路径长度加权成功率(SPL)是核心指标 [14] - 音频导航特有指标包括声音导航效率(SNE)和动态SPL(DSPL) [14] - 多目标导航指标包括进度(PR)和路径长度加权进度(PPL) [14] 点目标导航 - 需根据相对坐标导航到目标位置,无环境布局先验知识 [13] - 显式地图方法如ANM通过神经SLAM构建地图 [15] - 隐式表示方法如DD-PPO通过分布式训练提高可扩展性 [16] 目标对象导航 - 需在未知环境中找到并导航到特定对象,需要语义理解 [17] - 模块化方法如Sem-EXP构建语义地图 [17] - 端到端方法如VTNet直接从原始感官输入学习策略 [17] - 零样本方法如EmbCLIP利用预训练视觉语言模型 [17] 图像目标导航 - 需根据参考图像导航到目标位置,需要视觉推理能力 [22] - 显式地图方法如MANav通过自监督状态嵌入网络增强导航 [23] - 隐式表示方法如EmerNav估计观察和目标图像匹配特征 [24] 音频目标导航 - 需整合空间音频处理、视觉感知和路径规划 [25] - 显式地图方法如VAR结合视觉映射和声音定位 [25] - 隐式表示方法如SAVi处理静态声源导航 [26] 当前挑战 - 模拟环境与现实世界存在显著差异,尤其在物理动态和传感器噪声方面 [31] - 多模态集成最优策略仍是开放性问题,常优先考虑单一感官模态 [31] 未来工作 - 需开发人机交互系统,结合自动化泛化和战略性人类互动 [32] - 需开发真正平衡集成的多模态表示学习方法 [32] - 需建立统一的环境理解框架 [32]
英国研发新型机器人皮肤
新华网· 2025-06-21 15:37
新型机器人皮肤技术 - 由英国剑桥大学和伦敦大学学院研发的新型机器人皮肤采用柔软低成本的凝胶材料制成 可同时感知压力 温度等 并能区分多个接触点 使机器人获取环境信息的方式更接近人类 [1] - 该柔性导电皮肤易于制造 可熔化并重塑为复杂形状 能感知处理多种物理输入 提升机器人与物理世界的互动能力 [1] - 技术采用多模态感知方案 通过单一传感器对不同触觉产生差异响应 虽然信号分离存在挑战 但材料更易制造且耐用性更强 [1] 技术实现与测试 - 研究团队使用明胶基水凝胶铸造成人手形状 通过优化32个手腕电极配置 从整只手收集超过170万条信息 依赖材料内部的微通道网络实现高密度数据采集 [1] - 皮肤经过热风枪加热 人类手指/机器人手臂按压 轻触及手术刀切割等测试 采集数据训练机器学习模型 使机器人能识别触觉类型含义 [2] 应用前景 - 当前技术虽未达到人类皮肤灵敏度 但在灵活性和制造简便性上超越现有方案 可通过人类触觉校准适配多种任务 [2] - 潜在应用场景包括人形机器人 假肢等触觉感知领域 还可扩展至汽车制造 灾后救援等行业 [2]