Workflow
3D视觉
icon
搜索文档
奥比中光将携“端侧AI之眼”亮相CES 2026,3D视觉赋能具身智能新生态
新浪财经· 2026-01-05 12:09
公司核心动态与战略 - 奥比中光将携多款3D视觉新品、生态协同成果及机器人整机制造能力亮相2026年1月6-9日举行的CES展会 [1][6] - 公司以打造“端侧AI之眼”为核心,持续拓展3D视觉感知技术应用边界,为具身智能及各类AI端侧设备提供关键支撑 [1][6] - 此次CES亮相是公司技术积累与商业化能力的集中兑现,也是对未来赛道的精准卡位 [5][10] 新品发布与技术布局 - 公司将发布多款面向人形机器人、户外自主移动机器人(AMR)场景的3D相机新品 [1][6] - 新品聚焦精细操作感知、复杂环境适应与系统协同三大核心需求,旨在提供更稳定、可落地的视觉感知方案 [1][6] - 公司将重点展示与NVIDIA新一代边缘算力核心平台Jetson Thor的最新适配成果,助力机器人厂商实现更高效的系统集成 [2][7] - 截至目前,公司已有十余款主流产品完成英伟达Jetson平台集成 [2][7] 业务能力与制造服务 - 公司将展示其“机器人整机制造能力”,依托超10万平方米的产业智能制造基地,可提供机器人等智能端侧硬件的整机及部件OEM服务 [2][7] - 公司已为理疗机器人、智能割草机、人形机器人、仓储机器人等多品类客户代工,有效缩短客户产品上市周期并降低生产成本 [2][7] - 公司技术路线持续演进,已形成“核心技术+标准产品+场景方案+制造服务”的立体化能力矩阵 [5][9] 市场地位与客户基础 - 公司在中国国内3D视觉传感器市场的份额约占70% [4][9] - 公司在韩国商用及工业移动机器人3D视觉市场份额亦达72% [4][9] - 公司已向优必选、智元、天工、乐聚等人形机器人厂商供货 [3][8] - 公司与普渡科技、云迹科技、擎朗智能、高仙机器人等服务机器人企业合作,覆盖商用服务、养老康复、家庭护理、物流配送等各类场景 [3][8] 行业发展与市场机遇 - 具身智能成为新质生产力的核心落地场景,人形机器人加速商用,户外AMR在港口、矿卡等领域渗透提速 [3][8] - 复杂场景对视觉感知稳定性、精度提出更高要求,3D视觉赛道迎来广阔发展机遇 [3][8] - 人形机器人配备3D传感器将是产业趋势,乐观测算下2030年全球人形机器人行业3D视觉设备市场规模将达1,600亿元 [3][8] - 3D视觉传感器正成为智能硬件的“标配”趋势 [5][10] 技术沉淀与经营业绩 - 自2014年首次参展CES以来,公司持续展示技术成果,如2018年的支付宝3D人脸支付设备、2020年的机器人3D视觉解决方案、2023年与微软、英伟达联合研发的3D iToF相机Femto Mega [5][9] - 截至2025年上半年,公司累计申请专利已近2,000项,在3D感知领域的知识产权储备稳居全球第一梯队 [5][10] - 2025年前三季度,公司实现营业收入7.14亿元,同比增长103.50% [5][10] - 2025年前三季度,公司归母净利润1.08亿元,同比扭亏为盈,迈入高质量发展拐点 [5][10]
厘米级精度的三维场景实时重构!这款激光扫描仪太好用了~
自动驾驶之心· 2025-12-17 08:03
产品发布与定位 - 公司正式发布GeoScan S1手持三维激光扫描仪,定位为国内目前最强性价比的实景三维激光扫描仪 [3][11] - 产品由同济大学刘春教授团队与西北工业大学产业化团队合作推出,基于多年科研和行业积累,并经过上百个项目验证 [10][11] - 产品旨在构建数字世界、推动三维孪生,通过轻量化设计和一键启动降低开发门槛,助力开发者快速掌握研发能力 [3][12] 核心性能与技术参数 - 扫描性能:每秒生成20万点云,最远测量距离70米,水平视角360°全域覆盖,支持超过20万平方米的大场景扫描 [3][24][31][32] - 测量精度:相对精度优于3厘米,绝对精度优于5厘米,在70米距离处精度控制可达±1.5厘米 [24][31] - 传感器融合:集成3D激光雷达、双广角相机、深度相机、9自由度IMU、RTK模块,通过微秒级同步模块实现多传感器数据融合 [15][24][36][37] - 实时处理:支持三维点云地图动态构建、色彩融合与实时预览,建图过程支持实时解算 [24][29] - 计算单元:搭载Intel N5095四核处理器(主频2.0GHz,睿频2.9GHz),配备16GB内存和256GB存储 [24] 产品设计与硬件配置 - 外观设计:采用小巧一体化机身,尺寸为14.2cm * 9.5cm * 9.5cm * 45cm,外壳为航空铝材质,不含电池重量1.3公斤,含电池重量1.9公斤 [14][24] - 激光雷达采用25°倾斜角安装设计,兼顾多个方位,无需反复采集即可提高效率 [17][18] - 供电系统:配备可快拆充电手柄,内置88.8Wh弹夹电池,续航时间约3至4小时,支持13.8V至24V宽电压输入 [24][26][28] - 接口与扩展:设备自带手持Ubuntu 20.04系统,支持ROS,提供千兆网口、双USB 3.0接口、Micro SD卡槽,支持Wi-Fi/蓝牙连接,具备灵活的扩展能力 [5][24][25] 软件功能与数据输出 - 软件系统:搭载成熟的多传感器融合SLAM建图算法,可实时输出高精度彩色点云数据 [29][36] - 数据输出:支持输出彩色点云,导出数据格式包括pcd、las、plv等多种通用格式 [24] - 3D高斯渲染:提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,可实现高保真实景还原 [7][8][53] - 操作流程:软件提供快速建图、启动相机、调整曝光参数、录包保存数据等功能,操作界面直观 [45] 应用场景 - 广泛适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等 [40][49] - 支持与无人机、无人车、机械狗、人形机器人等多种负载平台集成,实现跨平台组合与无人化作业 [47] - 具体应用领域涵盖地理信息数据采集、城市规划、文物保护、建筑测绘、施工工程精度控制等 [55][57] 产品版本与价格 - 公司推出四个版本以满足不同需求:基础版、深度相机版、3DGS在线版、3DGS离线版 [60] - 产品首发价格:基础版本19800元起,深度相机版本23800元,3DGS在线版本39800元,3DGS离线版本67800元 [11][60][61] - 3DGS在线版包含两个月3D高斯云服务,后续云服务续费为5000元/月;离线版需客户自备高性能服务器或由公司另行提供 [61] - 购买产品可提供为期1年的售后服务 [62]
华为Mate80全系支持3D人脸识别,产业链需求激增
选股宝· 2025-11-25 23:03
产品发布与技术创新 - 华为于11月25日正式发布Mate 80系列手机,全系支持3D人脸识别 [1] - 华为Mate 80系列全系标配3D ToF技术,实现金融级支付安全,并支持超过150个主流应用进行3D人脸登录或支付 [1] - 该系列手机支持华为账号一键登录关联3D人脸验证 [1] 行业趋势与市场前景 - 东吴证券认为2024年为3D视觉产业开始爆发的元年 [1] - 2024年前,3D产业应用场景少,市场需求和产业积累弱 [1] - 2024年后,3D视觉应用场景不断扩展,成为实现高精度感知与自主操作的关键技术 [1] - 自动移动机器人、3D打印、人形机器人、机械臂、灵巧手等领域的快速发展对实时深度感知产生硬性需求,导致3D视觉需求激增 [1] 相关公司业务布局 - 奥比中光已将3D视觉传感器应用于线下零售、自助货柜、餐饮、医疗以及交通等支付场景 [2] - 欧菲光凭借光学技术和生产制造自动化能力,布局智能门锁、VR/AR、机器视觉、运动相机等新领域 [2]
这台3D扫描仪,重建了整个隧道和公园~
自动驾驶之心· 2025-11-25 08:03
产品核心定位 - 产品定位为最强性价比手持实景三维激光扫描仪,旨在降低开发门槛,助力开发者快速掌握研发能力 [3][6] - 由同济大学刘春教授团队与西北工业大学产业化团队合作开发,基于多年科研和行业积累,并经过上百个项目验证 [11] - 核心价值在于以轻量化设计和多模态传感器融合算法,提供高效实用的三维解决方案,实现厘米级精度的三维场景实时重构 [3][12] 核心性能参数 - 扫描性能卓越,每秒可生成20万点云,最远测量距离达70米,相对精度优于3厘米,绝对精度优于5厘米 [3][24][31] - 支持超20万平方米的大场景扫描,水平视角360°全域覆盖,并支持彩色点云融合输出 [3][24][32] - 系统搭载Ubuntu 20.04操作系统,支持ROS,具备实时解算和实时预览能力,数据可导出为pcd、las、ply等多种通用格式 [24] 硬件配置与设计 - 采用高度集成的一体化设计,机身尺寸为14.2cm * 9.5cm * 45cm,含电池重量为1.9kg,小巧便携 [14][24] - 集成丰富的传感器资源,包括3D激光雷达、双广角相机、深度相机、9DOF IMU、RTK模块,并采用微秒级同步技术确保数据同步精度 [15][24][25][36] - 激光雷达采用25°倾斜角度安装的小倾角设计,可兼顾多个方位扫描,提升采集效率 [17][18] - 硬件配置包括Intel N5095四核处理器、16G内存、256G硬盘,并配备高带宽网口、双USB 3.0接口及Micro SD卡槽,扩展性强 [24][25] 软件功能与操作 - 软件系统支持三维点云地图动态构建、色彩融合和实时预览,操作简单直观,可一键启动执行扫描作业 [6][24][29] - 提供快速建图、彩色点云建图、相机程序、数据录制等多种软件功能,扫描结果导出即用,无需复杂部署 [6][45] - 推出3D高斯(3DGS)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [7][8][53] 应用场景 - 设备适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等,能够精准完成三维场景地图构建 [40][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [47] - 在地理信息数据采集、城市规划、文物保护、施工工程等领域均有应用潜力 [55][57] 产品版本与定价 - 提供四个版本以满足不同需求:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元,云服务续费5000元/月)、3DGS离线版(67800元) [60][61] - 购买可享受为期1年的售后服务,并可通过优惠码DSAA-5T9R-K2M8获取优惠 [62]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 08:47
技术突破与核心观点 - 字节跳动团队推出Depth Anything 3(DA3),将单目深度估计扩展至任意视角场景,使计算机空间感知能力媲美人类[5] - 研究证明当前多数3D视觉研究存在过度设计问题,仅需一个简单的、用深度光线表示训练的Transformer即可实现强大性能[2][9] - DA3采用最小化建模理念,仅使用标准Transformer架构(如DINOv2编码器)和单一深度光线预测目标,无需复杂多任务学习或专门架构设计[7][12] 方法创新与架构设计 - DA3将几何重建目标建模为密集预测任务,训练模型根据N张输入图像输出N个对应的深度图和光线图[13] - 引入输入自适应的跨视图自注意力机制,在前向传播中动态重新排列token以实现跨视图高效信息交换[13] - 采用双DPT头联合输出深度值和光线值,并通过相机编码器选择性整合已知相机姿态增强灵活性[13] - 训练采用师生范式统一不同训练数据,使用伪标注策略为真实世界数据生成高质量伪深度图[14] 性能表现与基准测试 - 在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%[7] - 建立新视觉几何基准,在10项任务中均取得SOTA成绩,相机姿态精度比SOTA VGGT平均提高35.7%,几何精度提高23.6%[15] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[15] - 所有模型完全基于公开学术数据集训练[16] 应用潜力与功能展示 - 具备视频重建能力,能从任意数量视图(单视图到多视图)恢复视觉空间[18] - 提升SLAM性能,在大规模环境下仅替换VGGT-Long中的VGGT(DA3-Long)即可显著降低漂移,效果优于需48小时以上的COLMAP[20] - 通过冻结主干网络并训练DPT头部预测3D高斯参数,实现强大泛化能力的新颖视图合成[22] - 适用于自动驾驶多摄像头空间感知,从车辆不同视角估计稳定可融合的深度图[24]
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 08:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心· 2025-11-15 17:23
文章核心观点 - 字节跳动团队发布Depth Anything 3 (DA3)模型,证明3D视觉研究存在过度设计问题,仅需简单Transformer架构和单一深度光线预测目标即可实现强大空间感知能力[1][2][3] - DA3在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%,并在10项任务中均取得新SOTA成绩[7][14] - 该模型采用最小化建模理念,仅使用标准预训练视觉Transformer作为骨干网络,无需专门架构设计[9][12] 技术方法创新 - 采用简单Transformer架构(如原始DINOv2编码器)作为骨干网络,避免复杂架构设计[9][12] - 使用单一深度光线预测目标替代复杂多任务学习[9][12] - 引入输入自适应的跨视图自注意力机制,实现动态重新排列token以支持任意数量视图处理[13] - 提出新型双DPT头,通过处理同一组特征联合输出深度值和光线值[13] 性能表现 - 在相机姿态精度方面比之前SOTA VGGT平均提高35.7%,在几何精度方面提高23.6%[14] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[14] - 大规模场景SLAM应用中,仅替换VGGT-Long中的VGGT就能显著降低漂移,效果优于需要48小时以上完成的COLMAP[19] 应用场景 - 视频重建:能从任意数量视图中恢复视觉空间,涵盖单视图到多视图范围[17] - 前馈3D高斯估计:通过冻结主干网络训练DPT头部预测3DGS参数,实现强大新颖视图合成能力[20] - 多摄像头空间感知:从车辆不同视角估计稳定可融合深度图,增强自动驾驶环境理解能力[21] 训练策略 - 采用师生范式统一不同训练数据,包括真实世界深度相机数据、3D重建数据和合成数据[14] - 使用伪标注策略,通过合成数据训练单目深度模型为真实世界数据生成高质量伪深度图[14] - 建立新视觉几何基准,涵盖相机姿态估计、任意视图几何和视觉渲染等10项任务[14]
奥比中光-UW(688322):25Q3业绩超预期 “机器人之眼”未来成长可期
新浪财经· 2025-10-30 14:36
公司业绩表现 - 2025年前三季度公司实现营业总收入7.14亿元,同比增长103.5% [1] - 2025年前三季度实现归母净利润1.08亿元,扣非归母净利润0.69亿元 [1] - 2025年单第三季度实现营业总收入2.79亿元,同比增长102.49% [1] - 2025年单第三季度实现归母净利润0.48亿元,扣非归母净利润0.38亿元 [1] - 收入增长主要源于三维扫描、支付核验、各类型机器人等业务领域的快速增长 [1] 盈利能力与费用控制 - 前三季度销售毛利率为42.80%,同比小幅下降1.19个百分点 [1] - 前三季度销售净利率为15.08%,同比大幅提升32个百分点 [1] - 前三季度期间费用率为36.08%,同比下降35.18个百分点 [1] - 销售费用率为6.94%,同比下降7.6个百分点 [1] - 管理费用率为9.19%,同比下降13.27个百分点 [1] - 研发费用率为20.52%,同比下降23.18个百分点,研发效率提升 [1] - 财务费用率为-0.58%,同比上升8.86个百分点 [1] - 盈利能力提升主要系大幅降费所致 [1] 市场拓展与技术布局 - 公司在韩国商用及工业移动机器人3D视觉市场占有率达72% [2] - 公司技术助力当地企业Twinny实现物流运营成本降低64.4% [2] - 公司已完成与日本TOP3机器人企业的合作布局 [2] - 在三维扫描领域,公司联合创想三维发布CRScanOtter、CR-Scan Raptor双旗舰3D扫描仪,搭载自研芯片 [2] - 在人形机器人领域,公司与地平线、地瓜机器人达成战略合作,打通"3D视觉+AI决策"链路 [2] - Gemini系列相机全面兼容NVIDIA Jetson平台,并于2025年正式加入Intel合作伙伴联盟,切入全球开发者生态 [2] 未来业绩预测与估值 - 预计公司2025年营收为9.36亿元,同比增长65.9% [2] - 预计公司2026年营收为14.76亿元,同比增长57.6% [2] - 预计公司2027年营收为18.98亿元,同比增长28.6% [2] - 预计公司2025年归母净利润为1.48亿元,同比增长335.0% [2] - 预计公司2026年归母净利润为3.26亿元,同比增长120.4% [2] - 预计公司2027年归母净利润为4.67亿元,同比增长43.4% [2] - 当前股价对应2025年/2026年/2027年PS估值分别为37.82倍/23.98倍/18.65倍 [3] - 公司被视为国内机器人之眼稀缺标的,业绩拐点初现,成长空间广阔 [3]
天准科技:公司将3D视觉技术广泛应用于工业零部件的质量控制
证券日报网· 2025-10-28 18:44
公司业务定位 - 公司是国内3D视觉领域的领先企业之一 [1] - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [1]
天准科技:公司是国内3D视觉领域的领先企业之一
每日经济新闻· 2025-10-28 15:52
公司市场地位 - 公司是国内3D视觉领域的领先企业之一 [2] 技术应用 - 公司将3D视觉技术广泛应用于工业零部件的质量控制 [2]