机器人视觉

搜索文档
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
具身智能之心· 2025-08-04 09:59
多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型(VLMs),从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航,展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势,包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析,涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合,各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征,解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据,提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中,多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心,在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标,涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中,多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中,多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]
RealSense与英特尔分手之后 获5000万美元投资!All in 机器人视觉!
机器人大讲堂· 2025-07-21 09:57
公司拆分与融资 - 英特尔旗下RealSense业务于2025年7月完成独立分拆,获得英特尔投资与联发科创新基金联合注资5000万美元[1] - 分拆过程历时6个月,2021年曾因英特尔战略调整一度面临关停,后经决策反转保留业务[1] 团队构成与领导层 - 独立后团队规模130人,其中88%(115名)来自英特尔原团队,其余15名为外部招聘[2] - 首席执行官Nadav Orbach在英特尔有19年工作经验,其中15年专注视觉与成像领域[4] - 所有来自英特尔的老员工均获得新公司股票期权[2] 技术定位与产品 - 定位为"物理AI领域初创企业",核心目标是构建机器人理解世界的工具[4] - 近期推出D555 PoE摄像头及自研ASIC芯片,板载AI算力达5 TOPS,支持实时遥测和边缘处理[11] - 硬件生产长期由台积电负责,已具备独立供应链能力[12] 市场应用与客户 - 技术已应用于3000多家客户,覆盖60%的AMR和人形机器人开发商[5] - 典型客户包括Geek+物流机器人和Agility Robotics人形机器人[5] - 在Agility Robotics的Digit机器人中,D455摄像头用于物体检测和地形测绘[7] 技术发展方向 - 软件领域重点投入视觉SLAM技术和3D安全功能[7] - 战略方向是将更多智能推向边缘设备,成为"机器人的视觉皮层"[9] - 技术向农业、零售自动化及水产养殖等新场景拓展,开发水下鱼类追踪传感器[14] 行业竞争格局 - 面临Luxonis、Orbbec、Zivid等竞争对手,市场呈现整合趋势(如Photoneo被Zebra收购)[12] - 在人形机器人视觉方案中市场份额较低,仅宇树科技Unitree G1采用其技术[16] - 特斯拉Optimus等主流产品多采用纯视觉或多传感器融合方案[16] 行业前景 - 全球机器人市场规模预计从500亿美元增至2000亿美元(6年CAGR未披露)[15] - 人形机器人需求年复合增长率超40%[15] - 视觉方案尚未形成行业共识,存在多种技术路线竞争[16]
“3D视觉第一股”奥比中光董事长黄源浩:机器人视觉将超越人眼,未来还有很长的路要走 | 走进上市公司·高见2025
每日经济新闻· 2025-07-04 18:56
公司概况 - 奥比中光成立于2013年,专注于3D视觉感知技术研发,2022年科创板上市,被称为"3D视觉第一股"[4] - 公司定位为机器人与AI视觉产业中台,致力于打造机器人的"眼睛"[4] - 全球少数全面布局六大3D视觉感知技术路线的企业,包括结构光、iToF、dToF、双目、Lidar和工业三维测量[6] 技术实力 - 2024年研发人员322人占比47%,研发投入2.04亿元占营收36%[6] - 核心技术底层在芯片,2014年投入超1000万元研发40纳米级芯片[6] - 在中国服务机器人3D视觉传感器领域市占率超70%[23] - 为"天工Ultra"人形机器人提供Gemini330系列深度相机作为核心视觉组件[24] 财务表现 - 净利润亏损持续收窄:2020年亏损6.15亿元,2024年缩减至6291万元[8] - 2025年1-5月预计营收3.63亿元(同比+117.18%),归母净利润5500万元(同比增加8643.86万元)[17] - 2025年有望成为上市后首个盈利年度,全年营收或突破10亿元,净利润超1亿元[17] 行业前景 - 全球3D视觉感知市场规模预计2028年达172亿美元[18] - 机器人IoT及行业智能化升级将是未来增长最快领域[2][23] - 机器人视觉技术未来20年将显著进步,从单一技术路线向多技术融合方向发展[23][24] 应用场景 - 已应用于支付宝刷脸支付、智慧医保等消费场景[7] - 年实施项目近100个,通过项目积累场景理解能力[8] - 全球客户超6000家,目标3-5年内突破1万家[17] 技术特点 - 六大技术路线覆盖不同距离和精度需求:结构光(<5m/高精度)、iToF(<3.5m/中)、dToF(<5m/低)、双目(<15m/高)、Lidar(<200m/低)、工业三维测量(20mm-30m/极高)[6] - 3D视觉相比2D能提供深度、形貌、位姿等三维信息,支撑AI算法需求[7]
让机器人“看”世界:最好时代与最硬骨头
21世纪经济报道· 2025-06-26 10:43
公司概况 - 公司成立于2013年并于2022年7月在科创板上市,被称为"3D视觉第一股" [1] - 基于自研芯片和全栈式系统技术,提供3D视觉传感器及机器人与AI视觉方案 [1] - 研发投入巨大,2022年至2024年5月三年多时间研发投入接近10亿元人民币 [2] 业绩表现 - 2024年营收实现56%增长,2024年1-5月营收同比增长117% [2] - 2023年全年收入突破5亿元,2024年有望突破10亿元营收大关 [2] - 2024年可能成为上市以来首个实现盈利的年度 [2] 市场地位 - 市场上少数能提供全套自主知识产权3D视觉感知产品的企业 [3] - 全球少数全面布局六大3D视觉感知技术路线的公司之一 [3] - 在中国服务机器人3D视觉传感器领域市占率超过70% [3] 技术发展 - 机器人视觉技术至少还需发展20年才能成熟 [3] - 未来机器人视觉将向高度集成化发展,追求小巧、低功耗、高算力 [3] - 需要从芯片流片到系统集成全环节重新设计 [3] 行业前景 - 当前被认为是人工智能时代带来的最好发展机遇 [2] - 机器人视觉能力未来将超越人类,能收集更多视觉信息并做出更强决策 [2] - 公司专注于开拓性工作,这形成了其技术护城河 [2] 业务布局 - 2016年起开始面向服务机器人提供3D视觉传感器 [3] - 2022年专门为机器人业务设置产品线,加大布局力度 [3] - 业务主要聚焦机器人、3D扫描、生物识别等行业 [1]
速腾聚创发布2025Q1业绩,机器人产品销量高增长
格隆汇· 2025-06-03 02:10
业绩表现 - 25Q1收入3.28亿元,同比-12.4%,环比-30.7% [1] - 25Q1毛利率23.5%,同比+11.2pct,环比+1.4pct [1] - 25Q1净利润-1.0亿元(24Q1为-1.3亿元,24Q4为-1.3亿元) [1] - 激光雷达产品总销量由24Q1约120,400台减少至25Q1约108,600台,主要因ADAS应用产品销量减少 [1] - 机器人及其他产品激光雷达销量由24Q1约4,200台增加至25Q1约11,900台,主要因E1R及Airy产品销量增加 [2] 产品与技术 - 发布全球首款千线超远距数字激光雷达EM4,具备1080线发射能力和最远600米探测距离 [2] - 推出两款新品激光雷达E1R与Airy,面向汽车与机器人市场 [2] - 推出第二代灵巧手Papert 2.0,拥有20个自由度和14个力传感器 [2] - 推出首款基于Active Camera平台的新型机器人视觉产品AC1及AI-Ready生态系统,AC1实现激光雷达、摄像头与IMU硬件级融合,具备120°×60°FoV、70米测距能力 [3] - 发布全新一代数字化激光雷达EMX,具备真192线、每秒288万点高清点云输出、300米超远探测距离和0.08°×0.1°全域角分辨率 [3] 市场与客户 - 截至25年3月底,取得30家汽车整车厂及一级供应商超过100款车型量产定点订单,其中12家客户的38款车型实现SOP [2] - 在深圳举办第100万台激光雷达下线仪式,产品交付人形机器人(上海)有限公司,成为全球首家达成百万台高线数激光雷达下线的企业 [2] - 在庭院机器人市场取得突破性进展,获得2家全球头部割草机器人客户独家合作 [3] - 与库犸科技达成战略合作,创下割草机器人行业最大激光雷达订单纪录,未来三年内合作交付120万台车规级全固态激光雷达 [3]
擂台之上 “慧眼”助力 人形机器人格斗赛 国产“慧眼”如何让机器人精准识敌
广州日报· 2025-05-29 03:01
机器人格斗赛事技术突破 - 宇树G1格斗比赛展现机器人稳定性与瞬间抗冲击能力超预期表现 成为机器人技术发展风向标 有望带动机器人行业新一轮行情 [1] - 比赛机器人采用力传感器 触觉传感器 视觉方案等感知技术 以及谐波减速器 电机等核心传动装置 其中视觉感知技术是理解环境的核心能力 [1] - 参赛G1机器人配备双目深度相机和3D激光雷达 实现360度环境感知 通过多传感器融合技术实时调整姿态完成高强度动作 [2] 机器视觉技术路线对比 - 特斯拉Optimus采用2D摄像头视觉方案 延续车端纯视觉感知技术路线 [2] - 国内厂商主要采用3D视觉(结构光/ToF/双目)结合激光雷达方案 相比2D视觉增加深度信息 提升环境建模与导航精度 [2] - 奥比中光在国内服务机器人视觉市场占有率超70% 为全球少数全面布局六大3D视觉感知技术路线的公司 [2][4] 机器人技术发展阶段 - 当前比赛采用"手动遥控"方式 依赖"机器人选手+真人选手操控"协同配合 [3] - 人形机器人重大进展体现在关节灵活度和平衡运动控制方面 人为指令执行效果超预期 [3] - 未来全自动格斗需机器人具备自动化感知决策能力 视觉传感器感知数据将成为重要基础 [3] 行业发展趋势 - 12月深圳将举办全球首个人形机器人"机甲拳王"自由格斗赛 打造开源竞技联盟 推动跨界融合 [4] - 奥比中光已将双目结构光系列产品送样 适配大部分人形机器人客户 [4] - 机器人格斗竞技将加速技术迭代和场景落地 国产3D视觉感知技术 多维传感技术 精密传动技术等供应链将加速崛起 [4][5]
思看科技(688583):3D视觉核心优势,物理AI第一步(“智”造TMT系列之三十二暨空间智能系列之二)
申万宏源证券· 2025-05-21 19:18
报告公司投资评级 - 首次覆盖,给予“买入”评级 [1][7][8][129] 报告的核心观点 - 思看科技是全球竞争力的3D扫描仪领军厂商,产品面向高端制造,3D算法、结构设计是核心优势 [7] - 公司有两大发展驱动,一是工业领域纵深、专业领域拓展,二是成为物理AI第一步、后续成为机器人的“眼睛” [7] - 预计公司25 - 27年分别实现收入4.3、5.5、7.3亿元,实现归母净利润1.6、2.1、2.7亿元,给予公司可比公司平均的25年PE 69x,对应“买入”评级 [7][8][120][129] 根据相关目录分别进行总结 高精度3D扫描仪领军厂商 - 思看科技是3D视觉数字化综合解决方案提供商,以3D扫描仪为主,核心竞争力是算法、结构设计和3D软件技术 [18] - 公司产品矩阵丰富,从2015年推出手持式三维扫描仪开始不断拓展,应用于逆向工程、3D检测、3D打印等工业场景 [19][23] - 公司业绩稳健增长,标准化能力强,经营质量高,境外收入持续高增,覆盖多行业核心客户 [40][42][45][51] - 公司管理层年轻化,学术背景深厚,创始人团队长期共同创业且为实际控制人 [54][55] 硬件是载体,算法及结构是核心 - 公司核心是成像算法和光学结构能力,形成三大核心技术集群,掌握18项核心技术,在算法及软件方面有自主研发能力 [58] - 三维识别重建技术包括快速高精度边缘计算、内置摄影测量复合扫描、多波段扫描技术,可提升扫描效率和精度 [61][66][69] - 三维立体延伸技术包括跟踪范围扩展、孔测量、自动化三维扫描技术,可全方位获取真实三维数据 [70][74][76] - 立体视觉标定技术包括多波段扫描标定和自动标定技术,可自动化完成标定及3D扫描 [81][85] 驱动一:全球竞争力,产品渗透率提升 - 纵向来看,非接触扫描式测量有望取代传统接触式测量,国产扫描仪有价格优势,思看科技国内领先、全球第二,市占率有提升空间 [86][92][94] - 横向来看,三维视觉数字化产品分工业级、专业级和商业级,公司从工业精度下沉至专业级产品优势显著、空间广阔,如在医疗领域与强脑科技合作 [95][96][97] 驱动二:物理AI第一步,长期发挥视觉算法优势 - 物理AI是机器人重要实现基础,可完成与现实世界交互、生成物理数据以供训练 [103] - 公司3D高精度扫描可构建真实物理环境,从“万物数字化”到“虚拟物理世界”逻辑一致,长期有望成为人形机器人的“眼睛” [111][114][117] 盈利预测及估值分析 - 预计公司25 - 27年分别实现收入4.3、5.5、7.3亿元,工业级产品增速维持在25%,专业级产品增速维持在100% [120][121][122] - 预计公司25 - 27年实现归母净利润1.6、2.1、2.7亿元,工业级领域25 - 27年毛利率为77%/78%/80%,专业级领域为74%/75%/76% [125][127] - 选取凌云光、奥普特、铂力特为可比公司,给予公司可比公司平均的25年PE 69x,对应“买入”评级 [128][129]
奥比中光连跌6天,兴证全球基金旗下1只基金位列前十大股东
搜狐财经· 2025-05-20 22:46
奥比中光股价表现 - 5月20日连续6个交易日下跌,区间累计跌幅达-8 79% [1] - 近1周阶段涨幅-0 48%,近1月涨幅4 22%,近3月跌幅-6 03%,近6月跌幅-1 74%,今年以来涨幅0 33% [2] - 同类基金平均今年来涨幅3 71%,沪深300指数同期涨幅-0 93% [2] - 今年以来收益率在3936只同类基金中排名2732位 [1][2] 公司业务定位 - 奥比中光(688322 SH)是机器人视觉及AI视觉科技领域的领先企业 [1] - 核心业务方向为构建机器人与AI视觉产业中台,定位为打造机器人的"眼睛" [1] 基金持仓变动 - 兴证全球基金旗下兴全合润混合A一季度对奥比中光进行减持,该基金为前十大股东 [1] - 兴全合润混合A当前规模397 12亿元,基金经理谢治宇累计任职12年又114天,最佳任期回报503 14% [4] 基金管理人背景 - 基金经理谢治宇为经济学硕士,现任兴证全球基金副总经理兼研究部总监 [3][4] - 管理兴全合润混合型基金超9年,同时管理兴全合宜灵活配置混合等产品 [4] - 兴证全球基金成立于2003年9月,股东为兴业证券(持股51%)和全球人寿保险(持股49%) [4]