Workflow
多模态感知
icon
搜索文档
辅助驾驶的AI进化论 - 站在能力代际跃升的历史转折点
2025-08-05 11:15
辅助驾驶行业目前的发展进展如何? 辅助驾驶行业目前的发展进展显著。云端智算中心已于去年底形成初具规模, 大算力芯片在今年上半年实现量产上车。随着世界模型的持续优化,辅助驾驶 能力迎来 L2 到 L3 商业化落地迭代拐点。在竞争格局方面,全栈自研主机厂和 第三方解决方案供应商已经形成相对领先性,车企不再强制主导全栈自研,而 是展开丰富战略合作推动智能化渗透率普及。 摘要 辅助驾驶的 AI 进化论 - 站在能力代际跃升的历史转折点 20250804 辅助驾驶行业正经历 L2 到 L3 商业化落地迭代拐点,全栈自研主机厂与 第三方供应商形成领先优势,车企战略合作推动智能化普及。云端智算 中心初具规模,大算力芯片量产上车,世界模型持续优化是关键驱动力。 特斯拉、小鹏、鸿蒙智行合作车企、理想、蔚来、小米等车企在辅助驾 驶领域领先。Momenta 和云融启行等第三方供应商也占据重要地位。 国内供应商如速腾聚创、禾赛科技等正向软硬件一体化解决方案发展。 各车企在技术研发上积极投入,如特斯拉 HW5.0 搭载 4D 毫米波雷达, 理想 L 系列标配激光雷达,小鹏与蔚来实现自研芯片上车。同时,理想、 小鹏、华为、蔚来等发布本地 ...
中国电子学会:中国人形机器人整体水平处全球第一方阵
新浪财经· 2025-08-02 21:55
中国电子学会理事长徐晓兰2日在2025世界机器人大会新闻发布会上表示,中国人形机器人在运动性、 灵巧性等方面实现重大突破,整体水平处于全球第一方阵。徐晓兰表示,十年来,大会推动机器人在科 技创新、产业发展、应用场景、国际合作四个方面实现了新突破,成为机器人赋能千行百业、走进千家 万景的推动者、参与者和见证者。科技创新方面,机器人大模型、智能协同控制、人机交互、多模态感 知等核心技术不断突破,运动能力显著增强,通过AI控制算法的优化,国产机器人可实现毫秒级动作 响应,稳定性、灵活性、连贯性持续提升。产业发展方面,中国工业机器人市场销量由2015年的7.0万 套增长至2024年的30.2万套,连续12年成为全球最大工业机器人市场。中国是全球第一大机器人生产 国,工业机器人产量由2015年的3.3万套增长至2024年的55.6万套。(中新社) ...
从技术秀到真突破:解码WAIC 2025的核心价值
36氪· 2025-08-01 11:49
技术突破 - 机器人从"机械响应"进化到"主动演绎",能同步分析语音停顿、面部肌肉变化、手势幅度并生成复合情绪如"强颜欢笑" [7] - 傅利叶GR-3人形机器人采用柔肤软包覆材质,内置多模态感知系统和Affective Computing模型,可实时回应人类情感需求 [4] - 百度NOVA数字人技术实现10分钟克隆个体、打破内容创作边界、智能体军团协同作战三大颠覆性变革 [6] 行业应用 AI+娱乐 - 魔珐科技展示生成式AI驱动的3D数字人,可实时调整表情动作,降低视频制作成本,拥有数千款多风格角色及影视级3D场景 [11][13] - 技术应用于政法领域智能化服务窗口和沉浸式法治教育 [13] AI+教育 - 学而思"九章大模型"具备智能学习系统和拆题讲思路功能,能检测学生走神并切换生动讲解方式 [14] - AI教育平台从"教学工具"升级为拟人化"学习伙伴",增强学习过程的人性关怀 [14] AI+医疗 - 阿里达摩院推出"平扫CT+AI"系统实现多病种筛查,蓝想数科用数字孪生提升急危重症诊疗水平,蚂蚁集团整合3600家医院资源提供全流程服务 [16] - 30余项创新成果展示包括药物研发周期优化方案和医学影像AI分析云平台 [16] 市场趋势 - 情感计算和拟人化交互市场年均增速35%,预计2026年规模超500亿美元,医疗/教育/客服领域增长最显著 [17] - AI技术正推动医疗健康服务向精准化、个性化、智能化升级 [16] 社会价值 - 《AI赋能可持续发展倡议》明确AI需助力绿色转型、医疗普惠、教育公平,中国气象局"妈祖"AI预警系统已在吉布提/蒙古国落地 [19] - 华为AI光视联动平台在南非预防铁路安全事故,体现技术对公共安全的赋能 [19]
驾驭工业场景挑战!灵心巧手即将推出全新“工业大师”灵巧手
机器人大讲堂· 2025-07-11 18:35
人形机器人及灵巧手行业发展 - 人形机器人将在2025年迎来量产元年 灵巧手落地应用的新元年也即将到来 工业灵巧手已从设计初探迈入落地战场 工业生产半开放场景的标准化、高精度刚需成为灵巧手落地的理想试验场 [1] - 灵心巧手推出的Linker Hand系列灵巧手在国内率先开辟高自由度灵巧手市场 推动产品和技术进入加速发展时期 主售产品L10、L20及L30均实现20个以上自由度 展现出优良精度和性能表现 高灵活性可支持完成更复杂的人手工作 目前月订单已过千 [1] 灵心巧手产品技术突破 - 针对工业场景需求 公司即将推出两款高自由度"工业大师"灵巧手:Linker Hand L6工业版具有6个主动自由度和12个总自由度 L20工业版具有17个主动自由度和21个总自由度 可适配不同灵活性需求 [2] - 新产品配备全新"超强电缸"驱动模块 实现驱控一体化高度集成 驱动效率高达90% 达行业传统产品2倍以上 丝杠末端推力200N 指尖末端力20N 满足工业场景大力矩需求 实测寿命超百万次 达同业2-3倍 同时降低运行噪音 [4] - 采用新型智能材料提升整手可靠性 具有重量轻、强度高、耐用性好等工业级品质 适应生产环境中碰撞、摔落等实际工况 [5] 工业场景应用前景 - 工业场景具有物理边界明确、干扰变量少、作业流程标准化等特征 具备新质生产力替代性 灵巧手依靠多模态感知能力可精准补偿环境扰动 实现多种工具操作 将成为未来工业柔性生产基础设施 [7] - 柔性生产、精密装配、特种物流等场景已体现高度落地可能 灵巧手不仅是"仿生手指" 更将成为柔性制造的决策执行终端 其应用突破映射工业从"规模优先"转向"弹性即竞争力"的变革趋势 [7] 行业生态 - 文档列出了包括工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能等领域的代表性企业 如埃斯顿自动化、优必选科技、灵心巧手等 以及核心零部件企业如绿的谐波、因时机器人等 [11][12][13][14]
【重磅深度】灵巧手持续迭代,关注技术路线收敛中的边际增量
灵巧手市场前景 - 2024年灵巧手市场规模达17.06亿美元,预计2025年增至19.21亿美元,2030年达30.36亿美元 [2] - 工业机器人常用二指灵巧手执行简单夹取,人形机器人需求推动向4指/5指及高自由度发展 [2] - 灵巧手价值量占整机10-20%,是成本占比最高的零部件之一 [28] 驱动方案 - 欠驱动方案通过牺牲精度降低成本,应用更广泛 [3] - 外置/混合置驱动方案牺牲精度但短期落地更快 [3] - 电驱动因模块化设计、精度高等特点成为主流方案 [3] - 特斯拉第三代灵巧手用无刷有齿槽电机替换部分空心杯电机 [3][48] 传动方案 - 主要分为齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类 [4] - 腱绳+丝杠复合传动可提高精度同时保持灵活性,特斯拉第三代采用此方案 [5][63] - 齿轮/蜗轮蜗杆传动效率高但体积大 [51] - 连杆传动承载力高但效率低 [55] - 丝杠传动精度高但柔性差 [59] - 腱传动灵活但精度低 [61] 感知方案 - 多模态感知是既定趋势 [6] - 力/力矩传感器向应变片式六维发展 [6][76] - 柔性传感器技术路线多元,聚焦灵敏性和稳定性 [6][80] - MEMS压力传感器中压阻式更成熟,多用于指尖 [6][84] 特斯拉灵巧手迭代 - 第三代自由度从11个增至22个 [95] - 驱动方案从空心杯电机转向无刷有齿槽电机 [95] - 传动方案从腱绳+蜗轮蜗杆转向腱绳+丝杠 [95] - 感知方案新增全手触觉传感器和集成AI视觉系统 [95][97] 行业发展趋势 - 国内外产品普遍追求高自由度与多模态感知 [8][98] - 电机、微型丝杠、腱绳、传感器是主要成本构成 [101] - 技术路线尚未完全收敛,需绑定头部厂商 [101] 投资建议 - 推荐减速器+丝杠链企业福达股份 [8][101] - 关注微型丝杠链浙江荣泰、五洲新春、震裕科技 [8][101] - 关注腱绳链大业股份、南山智尚 [8][101] - 推荐T链头部企业拓普集团 [8][101]
人形机器人行业深度报告:灵巧手持续迭代,关注技术路线收敛中的边际增量
东吴证券· 2025-06-27 15:32
报告行业投资评级 未提及 报告的核心观点 - 下游场景推动灵巧手向仿人手迭代,2024年灵巧手市场规模达17.06亿美元,预计2025/2030年将增至19.21/30.36亿美元,工业机器人常用二指灵巧手,人形机器人需求促使其向4指/5指及高自由度发展 [2] - 驱动方案上,欠驱动、外置/混合置+电驱为主流,电机或由空心杯向无刷有齿槽切换 [2] - 传动方案涵盖齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类,腱绳+丝杠复合传动契合未来趋势 [2] - 感知方案多模态是趋势,力/力矩传感器趋于应变片式并向六维发展,柔性传感器技术路线多元,MEMS压力传感器中压阻式更成熟 [2] - 特斯拉灵巧手迭代明确绳驱主流,国内外产品追求高自由度与多模态感知 [2] - 投资建议推荐减速器+丝杠链企业【福达股份】,关注微型丝杠链【浙江荣泰】等,关注腱绳链【大业股份】等,推荐T链头部企业【拓普集团】 [2] 根据相关目录分别进行总结 灵巧手:人形机器人与外界交互的媒介 - 灵巧手是末端执行器,人形机器人应用场景复杂,促使其从双指/多指向五指仿人手迭代,以实现更精细化功能 [11] - 手有十三种基本功能,人手自由度21个(不考虑手腕关节),特斯拉Optimus Gen3灵巧手预计有22个自由度 [16] - 灵巧手类别多样,按自由度分全驱动和欠驱动,按驱动结构分外置、内置或混合制等,适用于不同场景 [17] - 灵巧手价值量高,预计占整机10 - 20%,2024年市场容量76.01万只,预计2025/2030年达86.18/141.21万只,对应市场规模19.21/30.36亿美元,5年复合增长率分别为10.38%、9.59% [20] 灵巧手方案百花齐放,路线仍未收敛 驱动方案 - 按自由度分全驱动和欠驱动,全驱动精度高但成本高、结构复杂,欠驱动精度低但成本低、结构简单,当前欠驱动为主流,部分厂商结合两者 [26] - 按驱动器位置分外置、内置和混合置,内置是主流,短期外置和混合置负载能力强、ToB简单场景落地快,后续内置需求将上升 [29] - 按驱动方式分电驱动、气压驱动等,当前电机驱动为主流,具备控制精度高、响应速度快等优点,与机器人更契合 [30] - 电驱动电机分空心杯、无刷直流、无框力矩电机,空心杯是主流,无刷有齿槽电机是高集成化和成本的折中选择,或替代空心杯电机 [35] 传动方案 - 齿轮/蜗轮蜗杆传动由微型减速器带动齿轮组或由蜗杆和蜗轮组成,传动效率高但结构冗杂、柔性不足 [39] - 连杆传动通过连杆组件传递动力,承载力高但效率低、结构复杂 [45] - 丝杠传动分梯形、滚珠、行星滚柱丝杠,滚珠和行星滚柱丝杠精度和寿命高,但成本高、柔性差 [49] - 腱传动采用腱绳作为传动介质,灵活性高但精度低、腱绳易磨损 [53] - 微型丝杠+腱传动复合方案实现互补,符合发展趋势,特斯拉Optimus Gen3采用此方案,国内相关企业有望受益 [58] 感知方案 - 传感器在灵巧手上应用分为力觉和触觉传感器,力/力矩传感器用于精准抓取,柔性传感器感受物体形状,MEMS压力传感器用于指尖 [59] - 力觉、触觉传感器原理多样,力/力矩传感器技术路线基本收敛至应变片式,柔性和MEMS压力传感器技术路线多轨并行 [65] - 应变式六维力矩传感器是主流力觉传感器方案,六维力传感器适用于力的作用点和方向随机变化的场景 [68] - 柔性传感器是人机交互与环境感知核心,结构使其具备高灵敏度和稳定输出,安装在手指关节,核心是提高灵敏度、稳定性和集成化 [72] - MEMS压力传感器基于微机电技术,成本高、缺乏柔性,压阻式应用广泛,多用于指尖 [73] - 一元感知无法满足需求,多模态势在必行,多维触觉+视觉结合可升级感知能力,复合传感器研发兴起 [78] 从特斯拉灵巧手迭代展望未来趋势 - 第三代灵巧手驱动、传动方案改变,自由度从11个增至22个,电机从手掌移至小臂,部分空心杯电机换为无刷有槽电机,采用丝杠+腱绳传动方案,复杂任务完成度提高 [84] - 从特斯拉三代灵巧手演变看,向高自由度、多模态趋势演变,降本步入初期,国内外主机厂方案基本收敛至电驱动+高自由度,传感器方案向多模态发展 [87][88] 投资建议 - 推荐减速器+丝杠链企业【福达股份】,关注微型丝杠链【浙江荣泰】、【五洲新春】、【震裕科技】,关注腱绳链【大业股份】、【南山智尚】,推荐T链头部企业【拓普集团】 [91]
同济大学最新!多模态感知具身导航全面综述
具身智能之心· 2025-06-25 21:52
核心观点 - 目标导向导航技术已从简单的几何路径规划发展为复杂的多模态推理,整合了视觉、语言和音频信息 [7] - 首次将导航方法按推理域分类,揭示了不同任务间的共性和差异,提供了统一框架 [4] - 多模态感知集成是未来趋势,特别是视觉、语言和音频处理的融合 [4] - 显式地图方法在路径规划中表现优异但计算成本高,隐式表示方法计算效率高但复杂环境泛化能力受限 [4] 研究背景 - 导航任务从PointNav发展到ObjectNav、ImageNav和AudioGoalNav等复杂范式 [3] - 任务形式化定义为决策过程,包含环境、状态空间、观测空间、动作空间和目标空间 [8] - 过去十年技术发展从低级感知到高级语义理解结合 [7] 导航数据集 - Habitat-Matterport 3D (HM3D)是最大数据集,含1000个建筑规模重建,覆盖112.5k平方米可导航区域 [9] - Matterport3D导航复杂性最高,RoboTHOR和ScanNet相对简单 [9] - HM3D视觉保真度最佳,ScanNet重建缺陷最多 [9] 评估指标 - 成功率(SR)和路径长度加权成功率(SPL)是核心指标 [14] - 音频导航特有指标包括声音导航效率(SNE)和动态SPL(DSPL) [14] - 多目标导航指标包括进度(PR)和路径长度加权进度(PPL) [14] 点目标导航 - 需根据相对坐标导航到目标位置,无环境布局先验知识 [13] - 显式地图方法如ANM通过神经SLAM构建地图 [15] - 隐式表示方法如DD-PPO通过分布式训练提高可扩展性 [16] 目标对象导航 - 需在未知环境中找到并导航到特定对象,需要语义理解 [17] - 模块化方法如Sem-EXP构建语义地图 [17] - 端到端方法如VTNet直接从原始感官输入学习策略 [17] - 零样本方法如EmbCLIP利用预训练视觉语言模型 [17] 图像目标导航 - 需根据参考图像导航到目标位置,需要视觉推理能力 [22] - 显式地图方法如MANav通过自监督状态嵌入网络增强导航 [23] - 隐式表示方法如EmerNav估计观察和目标图像匹配特征 [24] 音频目标导航 - 需整合空间音频处理、视觉感知和路径规划 [25] - 显式地图方法如VAR结合视觉映射和声音定位 [25] - 隐式表示方法如SAVi处理静态声源导航 [26] 当前挑战 - 模拟环境与现实世界存在显著差异,尤其在物理动态和传感器噪声方面 [31] - 多模态集成最优策略仍是开放性问题,常优先考虑单一感官模态 [31] 未来工作 - 需开发人机交互系统,结合自动化泛化和战略性人类互动 [32] - 需开发真正平衡集成的多模态表示学习方法 [32] - 需建立统一的环境理解框架 [32]
英国研发新型机器人皮肤
新华网· 2025-06-21 15:37
新型机器人皮肤技术 - 由英国剑桥大学和伦敦大学学院研发的新型机器人皮肤采用柔软低成本的凝胶材料制成 可同时感知压力 温度等 并能区分多个接触点 使机器人获取环境信息的方式更接近人类 [1] - 该柔性导电皮肤易于制造 可熔化并重塑为复杂形状 能感知处理多种物理输入 提升机器人与物理世界的互动能力 [1] - 技术采用多模态感知方案 通过单一传感器对不同触觉产生差异响应 虽然信号分离存在挑战 但材料更易制造且耐用性更强 [1] 技术实现与测试 - 研究团队使用明胶基水凝胶铸造成人手形状 通过优化32个手腕电极配置 从整只手收集超过170万条信息 依赖材料内部的微通道网络实现高密度数据采集 [1] - 皮肤经过热风枪加热 人类手指/机器人手臂按压 轻触及手术刀切割等测试 采集数据训练机器学习模型 使机器人能识别触觉类型含义 [2] 应用前景 - 当前技术虽未达到人类皮肤灵敏度 但在灵活性和制造简便性上超越现有方案 可通过人类触觉校准适配多种任务 [2] - 潜在应用场景包括人形机器人 假肢等触觉感知领域 还可扩展至汽车制造 灾后救援等行业 [2]
一张照片、一句简单提示词,就被ChatGPT人肉开盒,深度解析o3隐私漏洞
机器之心· 2025-05-09 17:02
多模态AI隐私泄露风险 - OpenAI的ChatGPT o3模型能通过生活照中的细微线索将住址锁定在1英里范围内[1] - 研究揭示了多模态大语言模型在图片地理位置定位方面的严重隐私泄露风险[1] - 简单提示词配合生活照即可触发AI的多模态推理链条精准定位隐私地址[5] AI定位技术原理 - 视觉解析提取门牌号、建筑风格、环境特征等多层次线索[10] - 通过地理围栏技术逐步缩小范围实现精确定位[10][11] - 调用街景API、房产数据库等外部工具增强定位能力[10][11] - 采用跨模态融合技术整合视觉识别、地理数据和商业信息[10][11] 典型案例分析 - 波士顿案例:通过门牌号、建筑风格和环境特征实现米级定位,误差仅0.01英里[10] - 俄亥俄州案例:通过垃圾桶LOGO和建筑风格组合实现零误差定位[11] - 苏州案例:通过背景中独墅湖教堂的不锈钢十字架锁定800米范围内的具体地址[14] - 克利夫兰案例:通过风力涡轮机和周边建筑特征精准定位到具体街道[44] AI定位能力特点 - 具备链式推理能力,能从城市级线索逐步推理到住宅级定位[10] - 拥有冗余推理能力,即使核心线索被遮盖仍可通过次要线索定位[56] - 视觉编码器可分层提取低级特征(颜色纹理)、中级特征(物体识别)和高级特征(空间关系)[58] - 结合地图API、开源数据库和气候数据等多源信息进行交叉验证[58] 行业影响与挑战 - 多模态AI的"能力-风险"悖论:模型越智能隐私泄露风险越高[57] - 传统隐私保护手段如局部遮挡在多模态AI面前严重失效[56] - 城市基础设施和标识物成为隐私泄露的核心元凶[53] - 需要重构隐私防线,将隐私保护纳入多模态模型的"出厂标准"[59]