3D视觉
搜索文档
Teledyne e2v推出Perciva™ 5D相机:为工业、零售及机器人成像提供近距离无遮挡3D视觉解决方案
Globenewswire· 2026-03-09 08:00
产品发布与核心创新 - Teledyne科技旗下公司推出Perciva™ 5D相机 这是一项旨在以经济高效 可靠且易于集成的方案实现高质量短距离3D视觉的突破性成像创新[1] - 该相机通过独特的角敏感像素技术和先进的板载处理 可在校准工作距离范围内进行实时2D与3D图像融合[1] - Perciva 5D配备强大的神经处理单元 支持AI模型在设备端运行 并可根据客户特定需求进行定制[1] 技术特性与优势 - Perciva 5D通过单个CMOS传感器生成2D与3D数据 不受光学遮挡影响 可同步输出时间对齐的2D帧与像素对齐的3D深度图[2] - 相机具备直接集成的全面3D处理能力 用户可即时获取深度图或点云输出[2] - 采用环境光工作模式 室内外皆可使用 无需外部近红外光源即可保持可靠性能 同时最大限度降低整体系统成本[2] - 产品专为严苛环境设计 配备IP6x级防护外壳及工业级M12连接器 通过符合GenICam标准的GigE Vision接口实现即插即用集成[2] - 相机重量为230克 功耗低于5W 支持用户可调帧率或触发采集模式 并提供多种供电方案[3] 目标应用与市场推广 - 该产品适用于机器人 零售自助结账系统及工业3D工艺监控等应用场景[3] - 相机可无缝集成Teledyne的Spinnaker® 4 API及SpinView®进行2D/3D可视化处理 并兼容主流机器视觉软件平台[3] - Perciva 5D将于2026年3月10日至12日在德国纽伦堡举办的Embedded World展会期间亮相[3] 公司背景与能力 - Teledyne视觉解决方案提供垂直整合的综合工业和科学成像技术产品组合[4] - 旗下多个品牌互相协作 形成各领域的专长集合 提供深厚而广泛的传感和相关技术组合[4] - 公司提供全球客户支持和技术专长 其工具 技术和视觉解决方案旨在为客户提供竞争优势[4]
研判2026!中国视觉检测系统行业产业链、市场规模及发展趋势分析:智能化趋势下,行业稳健发展[图]
产业信息网· 2026-02-01 10:28
行业概述与定义 - 视觉检测系统是一种基于计算机视觉技术的自动化检测方案,通过工业相机、光源、图像处理与算法模块,实现缺陷识别、尺寸测量和定位引导等功能 [2] - 系统主要分为在线检测系统和离线检测系统两大类,在线系统集成于流水线实现100%实时全自动检测,离线系统独立于产线用于抽样检测,两者在实际应用中常形成互补 [2] 产业链结构 - 产业链上游包括光源、工业镜头、工业相机、图像传感器、图像采集卡、控制器及图像处理算法库、AI平台等基础硬件和软件 [3] - 产业链中游为视觉检测系统整机制造与系统集成环节 [3] - 产业链下游主要应用于3C电子、汽车、半导体、医疗、食品、包装印刷等行业,以提高生产效率和产品质量 [3] 市场规模与驱动因素 - 2024年中国视觉检测系统行业市场规模约为32.64亿元,同比增长9.71% [1][6] - 2024年中国图像传感器行业市场规模约为972.24亿元,同比增长10.71%,其性能提升助力视觉检测系统实现更高检测速度与更复杂3D场景分析 [5] - 2025年中国汽车产销量预计分别为3453.1万辆和3440万辆,同比分别增长10.4%和9.4%,汽车产销量增长带动了对高节拍、高精度视觉检测系统的需求 [5] 重点企业经营情况 - 天准科技致力于打造视觉装备平台,通过自主研发、海外并购等方式强化在半导体检测设备领域的布局,其TB系列为8寸/12寸晶圆提供缺陷检测 [7] - 2025年上半年,天准科技视觉检测装备产品营业收入为0.65亿元,同比下降70.81% [7] - 大华股份依托“慧视智眼”技术,在化工园区安全监管中实现单设备60-180路视频分析 [7] - 凌云光的印刷检测系统将缺陷识别效率提升90%,2025年前三季度,公司营业收入为21.27亿元,同比增长34.30%;归母净利润为1.33亿元,同比增长18.46% [7][9] - 海康威视发布了海康机器人多形态2.5D视觉检测系统 [7] 行业发展趋势 - 技术加速变革,未来“3D视觉+AI”将成为主流技术路径,以解决传统2D视觉痛点,AI的深度融合正推动系统从“辅助工具”向“自主决策系统”演进 [9] - 应用场景持续拓宽,一方面向适应小批量、多品种的柔性制造需求发展,另一方面从工业制造向医疗影像分析、零售运营、物流分拣等更广阔领域延伸 [10] - 产业生态从“国产替代”向“自主创新”与“生态共建”升级,行业需重点攻克半导体、精密制造等领域的高端需求,并构建协同开放的产业生态,同时伴随中国制造业出海加快国际化步伐 [11]
三大“碰一下”龙头股价齐创新高 NFC热潮助推A股科技股
中国基金报· 2026-01-12 16:30
市场整体表现 - 2026年1月12日,A股市场消费电子与芯片板块大涨,蓝思科技、复旦微电、奥比中光股价联袂上涨,成交额急剧放大,围绕移动新交互方式的资本盛宴拉开序幕[1] - 以支付宝“碰一下”功能为核心的NFC产业链成为市场焦点,支付宝凭借庞大用户基础,将NFC功能转化为连接物理与数字服务的超级入口,重塑了整个产业链价值[1] - 市场资金正沿着“碰一下”产业链逐级挖掘机会,从上游芯片设计、中游制造到未来交互生态,相关公司股价逆市走强已成为市场共识[8] 蓝思科技 (300433.SZ) - 公司是支付宝“碰一下”设备的首批代供商,凭借在精密制造领域的积累承担了首发工程,这为其开辟了继消费电子后的“第二增长曲线”[2][3] - 2026年1月12日,公司股价收报42.66元,大涨10%,创下新高,全天成交额高达120亿元,换手率超过5%[2] - 自支付宝“碰一下”于2024年7月8日发布以来,公司股价累计涨幅高达147%[2] - 随着“碰一下”功能从支付扩展到点餐、开门、社交名片交换等高频场景,对设备的需求不断扩大,为公司带来新的增长动力[3] 复旦微电 (688385.SH) - 公司是国内领先的安全与识别芯片设计公司,在NFC和安全芯片领域技术积淀深厚,为“碰一下”功能提供了核心的芯片读取与加密认证[4][5] - 2026年1月12日,在概念催化下,公司股价收盘报98元,涨幅高达9.84%[4] - 自2024年7月8日支付宝“碰一下”发布以来,公司股价累计增长已超过220%[5] - 受支付宝等应用推动,国内手机NFC使用频次持续增加,直接利好上游芯片厂商,当日有大额主力资金净流入公司,机构投资者正积极布局[5] - 在强调科技自立和供应链安全的背景下,公司作为国产芯片核心标的,价值在“碰一下”这一杀手级应用推动下得到进一步凸显[5] 奥比中光 (688322.SH) - 公司作为3D视觉领军者,其长期上涨体现了市场对未来交互方式的想象力,3D视觉是“空间”交互的核心,而“碰一下”代表的NFC是“近场”交互方案[6] - 随着AI硬件和具身智能时代到来,未来智能终端将融合多种交互模态,3D视觉技术为未来的AR眼镜、服务机器人、智能座舱铺路[6][7] - 公司是全球少数掌握核心技术、实现百万级面阵3D视觉传感器量产的企业,在机器人、元宇宙、AIoT等领域的布局使其成为未来科技浪潮中不可或缺的一环[7] - 资本市场将技术领先的公司放在一起估值,是在为整个AI硬件生态的爆发提前下注,寻找能够重新定义人机交互的平台级机会[7] 产业链逻辑 - “碰一下”产业链清晰地勾勒出一条投资地图:最上游的芯片设计(复旦微电)、中游的新材料与精密制造(蓝思科技)、以及代表未来交互生态的3D视觉(奥比中光)[8] - 支付宝成功激活了存量的NFC生态,将其从一个“沉睡”的手机功能转化为高频应用场景的超级入口,这直接驱动了上游芯片需求和中游设备制造需求[1][3][5] - 市场逻辑不仅限于NFC技术的直接受益者,更延伸至对未来融合交互生态的预期,将NFC近场交互与3D视觉空间交互视为互补的下一代交互模态[6][7]
奥比中光将携“端侧AI之眼”亮相CES 2026,3D视觉赋能具身智能新生态
新浪财经· 2026-01-05 12:09
公司核心动态与战略 - 奥比中光将携多款3D视觉新品、生态协同成果及机器人整机制造能力亮相2026年1月6-9日举行的CES展会 [1][6] - 公司以打造“端侧AI之眼”为核心,持续拓展3D视觉感知技术应用边界,为具身智能及各类AI端侧设备提供关键支撑 [1][6] - 此次CES亮相是公司技术积累与商业化能力的集中兑现,也是对未来赛道的精准卡位 [5][10] 新品发布与技术布局 - 公司将发布多款面向人形机器人、户外自主移动机器人(AMR)场景的3D相机新品 [1][6] - 新品聚焦精细操作感知、复杂环境适应与系统协同三大核心需求,旨在提供更稳定、可落地的视觉感知方案 [1][6] - 公司将重点展示与NVIDIA新一代边缘算力核心平台Jetson Thor的最新适配成果,助力机器人厂商实现更高效的系统集成 [2][7] - 截至目前,公司已有十余款主流产品完成英伟达Jetson平台集成 [2][7] 业务能力与制造服务 - 公司将展示其“机器人整机制造能力”,依托超10万平方米的产业智能制造基地,可提供机器人等智能端侧硬件的整机及部件OEM服务 [2][7] - 公司已为理疗机器人、智能割草机、人形机器人、仓储机器人等多品类客户代工,有效缩短客户产品上市周期并降低生产成本 [2][7] - 公司技术路线持续演进,已形成“核心技术+标准产品+场景方案+制造服务”的立体化能力矩阵 [5][9] 市场地位与客户基础 - 公司在中国国内3D视觉传感器市场的份额约占70% [4][9] - 公司在韩国商用及工业移动机器人3D视觉市场份额亦达72% [4][9] - 公司已向优必选、智元、天工、乐聚等人形机器人厂商供货 [3][8] - 公司与普渡科技、云迹科技、擎朗智能、高仙机器人等服务机器人企业合作,覆盖商用服务、养老康复、家庭护理、物流配送等各类场景 [3][8] 行业发展与市场机遇 - 具身智能成为新质生产力的核心落地场景,人形机器人加速商用,户外AMR在港口、矿卡等领域渗透提速 [3][8] - 复杂场景对视觉感知稳定性、精度提出更高要求,3D视觉赛道迎来广阔发展机遇 [3][8] - 人形机器人配备3D传感器将是产业趋势,乐观测算下2030年全球人形机器人行业3D视觉设备市场规模将达1,600亿元 [3][8] - 3D视觉传感器正成为智能硬件的“标配”趋势 [5][10] 技术沉淀与经营业绩 - 自2014年首次参展CES以来,公司持续展示技术成果,如2018年的支付宝3D人脸支付设备、2020年的机器人3D视觉解决方案、2023年与微软、英伟达联合研发的3D iToF相机Femto Mega [5][9] - 截至2025年上半年,公司累计申请专利已近2,000项,在3D感知领域的知识产权储备稳居全球第一梯队 [5][10] - 2025年前三季度,公司实现营业收入7.14亿元,同比增长103.50% [5][10] - 2025年前三季度,公司归母净利润1.08亿元,同比扭亏为盈,迈入高质量发展拐点 [5][10]
厘米级精度的三维场景实时重构!这款激光扫描仪太好用了~
自动驾驶之心· 2025-12-17 08:03
产品发布与定位 - 公司正式发布GeoScan S1手持三维激光扫描仪,定位为国内目前最强性价比的实景三维激光扫描仪 [3][11] - 产品由同济大学刘春教授团队与西北工业大学产业化团队合作推出,基于多年科研和行业积累,并经过上百个项目验证 [10][11] - 产品旨在构建数字世界、推动三维孪生,通过轻量化设计和一键启动降低开发门槛,助力开发者快速掌握研发能力 [3][12] 核心性能与技术参数 - 扫描性能:每秒生成20万点云,最远测量距离70米,水平视角360°全域覆盖,支持超过20万平方米的大场景扫描 [3][24][31][32] - 测量精度:相对精度优于3厘米,绝对精度优于5厘米,在70米距离处精度控制可达±1.5厘米 [24][31] - 传感器融合:集成3D激光雷达、双广角相机、深度相机、9自由度IMU、RTK模块,通过微秒级同步模块实现多传感器数据融合 [15][24][36][37] - 实时处理:支持三维点云地图动态构建、色彩融合与实时预览,建图过程支持实时解算 [24][29] - 计算单元:搭载Intel N5095四核处理器(主频2.0GHz,睿频2.9GHz),配备16GB内存和256GB存储 [24] 产品设计与硬件配置 - 外观设计:采用小巧一体化机身,尺寸为14.2cm * 9.5cm * 9.5cm * 45cm,外壳为航空铝材质,不含电池重量1.3公斤,含电池重量1.9公斤 [14][24] - 激光雷达采用25°倾斜角安装设计,兼顾多个方位,无需反复采集即可提高效率 [17][18] - 供电系统:配备可快拆充电手柄,内置88.8Wh弹夹电池,续航时间约3至4小时,支持13.8V至24V宽电压输入 [24][26][28] - 接口与扩展:设备自带手持Ubuntu 20.04系统,支持ROS,提供千兆网口、双USB 3.0接口、Micro SD卡槽,支持Wi-Fi/蓝牙连接,具备灵活的扩展能力 [5][24][25] 软件功能与数据输出 - 软件系统:搭载成熟的多传感器融合SLAM建图算法,可实时输出高精度彩色点云数据 [29][36] - 数据输出:支持输出彩色点云,导出数据格式包括pcd、las、plv等多种通用格式 [24] - 3D高斯渲染:提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,可实现高保真实景还原 [7][8][53] - 操作流程:软件提供快速建图、启动相机、调整曝光参数、录包保存数据等功能,操作界面直观 [45] 应用场景 - 广泛适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等 [40][49] - 支持与无人机、无人车、机械狗、人形机器人等多种负载平台集成,实现跨平台组合与无人化作业 [47] - 具体应用领域涵盖地理信息数据采集、城市规划、文物保护、建筑测绘、施工工程精度控制等 [55][57] 产品版本与价格 - 公司推出四个版本以满足不同需求:基础版、深度相机版、3DGS在线版、3DGS离线版 [60] - 产品首发价格:基础版本19800元起,深度相机版本23800元,3DGS在线版本39800元,3DGS离线版本67800元 [11][60][61] - 3DGS在线版包含两个月3D高斯云服务,后续云服务续费为5000元/月;离线版需客户自备高性能服务器或由公司另行提供 [61] - 购买产品可提供为期1年的售后服务 [62]
华为Mate80全系支持3D人脸识别,产业链需求激增
选股宝· 2025-11-25 23:03
产品发布与技术创新 - 华为于11月25日正式发布Mate 80系列手机,全系支持3D人脸识别 [1] - 华为Mate 80系列全系标配3D ToF技术,实现金融级支付安全,并支持超过150个主流应用进行3D人脸登录或支付 [1] - 该系列手机支持华为账号一键登录关联3D人脸验证 [1] 行业趋势与市场前景 - 东吴证券认为2024年为3D视觉产业开始爆发的元年 [1] - 2024年前,3D产业应用场景少,市场需求和产业积累弱 [1] - 2024年后,3D视觉应用场景不断扩展,成为实现高精度感知与自主操作的关键技术 [1] - 自动移动机器人、3D打印、人形机器人、机械臂、灵巧手等领域的快速发展对实时深度感知产生硬性需求,导致3D视觉需求激增 [1] 相关公司业务布局 - 奥比中光已将3D视觉传感器应用于线下零售、自助货柜、餐饮、医疗以及交通等支付场景 [2] - 欧菲光凭借光学技术和生产制造自动化能力,布局智能门锁、VR/AR、机器视觉、运动相机等新领域 [2]
这台3D扫描仪,重建了整个隧道和公园~
自动驾驶之心· 2025-11-25 08:03
产品核心定位 - 产品定位为最强性价比手持实景三维激光扫描仪,旨在降低开发门槛,助力开发者快速掌握研发能力 [3][6] - 由同济大学刘春教授团队与西北工业大学产业化团队合作开发,基于多年科研和行业积累,并经过上百个项目验证 [11] - 核心价值在于以轻量化设计和多模态传感器融合算法,提供高效实用的三维解决方案,实现厘米级精度的三维场景实时重构 [3][12] 核心性能参数 - 扫描性能卓越,每秒可生成20万点云,最远测量距离达70米,相对精度优于3厘米,绝对精度优于5厘米 [3][24][31] - 支持超20万平方米的大场景扫描,水平视角360°全域覆盖,并支持彩色点云融合输出 [3][24][32] - 系统搭载Ubuntu 20.04操作系统,支持ROS,具备实时解算和实时预览能力,数据可导出为pcd、las、ply等多种通用格式 [24] 硬件配置与设计 - 采用高度集成的一体化设计,机身尺寸为14.2cm * 9.5cm * 45cm,含电池重量为1.9kg,小巧便携 [14][24] - 集成丰富的传感器资源,包括3D激光雷达、双广角相机、深度相机、9DOF IMU、RTK模块,并采用微秒级同步技术确保数据同步精度 [15][24][25][36] - 激光雷达采用25°倾斜角度安装的小倾角设计,可兼顾多个方位扫描,提升采集效率 [17][18] - 硬件配置包括Intel N5095四核处理器、16G内存、256G硬盘,并配备高带宽网口、双USB 3.0接口及Micro SD卡槽,扩展性强 [24][25] 软件功能与操作 - 软件系统支持三维点云地图动态构建、色彩融合和实时预览,操作简单直观,可一键启动执行扫描作业 [6][24][29] - 提供快速建图、彩色点云建图、相机程序、数据录制等多种软件功能,扫描结果导出即用,无需复杂部署 [6][45] - 推出3D高斯(3DGS)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [7][8][53] 应用场景 - 设备适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等,能够精准完成三维场景地图构建 [40][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [47] - 在地理信息数据采集、城市规划、文物保护、施工工程等领域均有应用潜力 [55][57] 产品版本与定价 - 提供四个版本以满足不同需求:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元,云服务续费5000元/月)、3DGS离线版(67800元) [60][61] - 购买可享受为期1年的售后服务,并可通过优惠码DSAA-5T9R-K2M8获取优惠 [62]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 08:47
技术突破与核心观点 - 字节跳动团队推出Depth Anything 3(DA3),将单目深度估计扩展至任意视角场景,使计算机空间感知能力媲美人类[5] - 研究证明当前多数3D视觉研究存在过度设计问题,仅需一个简单的、用深度光线表示训练的Transformer即可实现强大性能[2][9] - DA3采用最小化建模理念,仅使用标准Transformer架构(如DINOv2编码器)和单一深度光线预测目标,无需复杂多任务学习或专门架构设计[7][12] 方法创新与架构设计 - DA3将几何重建目标建模为密集预测任务,训练模型根据N张输入图像输出N个对应的深度图和光线图[13] - 引入输入自适应的跨视图自注意力机制,在前向传播中动态重新排列token以实现跨视图高效信息交换[13] - 采用双DPT头联合输出深度值和光线值,并通过相机编码器选择性整合已知相机姿态增强灵活性[13] - 训练采用师生范式统一不同训练数据,使用伪标注策略为真实世界数据生成高质量伪深度图[14] 性能表现与基准测试 - 在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%[7] - 建立新视觉几何基准,在10项任务中均取得SOTA成绩,相机姿态精度比SOTA VGGT平均提高35.7%,几何精度提高23.6%[15] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[15] - 所有模型完全基于公开学术数据集训练[16] 应用潜力与功能展示 - 具备视频重建能力,能从任意数量视图(单视图到多视图)恢复视觉空间[18] - 提升SLAM性能,在大规模环境下仅替换VGGT-Long中的VGGT(DA3-Long)即可显著降低漂移,效果优于需48小时以上的COLMAP[20] - 通过冻结主干网络并训练DPT头部预测3D高斯参数,实现强大泛化能力的新颖视图合成[22] - 适用于自动驾驶多摄像头空间感知,从车辆不同视角估计稳定可融合的深度图[24]
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 08:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心· 2025-11-15 17:23
文章核心观点 - 字节跳动团队发布Depth Anything 3 (DA3)模型,证明3D视觉研究存在过度设计问题,仅需简单Transformer架构和单一深度光线预测目标即可实现强大空间感知能力[1][2][3] - DA3在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%,并在10项任务中均取得新SOTA成绩[7][14] - 该模型采用最小化建模理念,仅使用标准预训练视觉Transformer作为骨干网络,无需专门架构设计[9][12] 技术方法创新 - 采用简单Transformer架构(如原始DINOv2编码器)作为骨干网络,避免复杂架构设计[9][12] - 使用单一深度光线预测目标替代复杂多任务学习[9][12] - 引入输入自适应的跨视图自注意力机制,实现动态重新排列token以支持任意数量视图处理[13] - 提出新型双DPT头,通过处理同一组特征联合输出深度值和光线值[13] 性能表现 - 在相机姿态精度方面比之前SOTA VGGT平均提高35.7%,在几何精度方面提高23.6%[14] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[14] - 大规模场景SLAM应用中,仅替换VGGT-Long中的VGGT就能显著降低漂移,效果优于需要48小时以上完成的COLMAP[19] 应用场景 - 视频重建:能从任意数量视图中恢复视觉空间,涵盖单视图到多视图范围[17] - 前馈3D高斯估计:通过冻结主干网络训练DPT头部预测3DGS参数,实现强大新颖视图合成能力[20] - 多摄像头空间感知:从车辆不同视角估计稳定可融合深度图,增强自动驾驶环境理解能力[21] 训练策略 - 采用师生范式统一不同训练数据,包括真实世界深度相机数据、3D重建数据和合成数据[14] - 使用伪标注策略,通过合成数据训练单目深度模型为真实世界数据生成高质量伪深度图[14] - 建立新视觉几何基准,涵盖相机姿态估计、任意视图几何和视觉渲染等10项任务[14]