Workflow
3D视觉
icon
搜索文档
机器视觉行业深度研究报告(一):从二维识别到三维重构,3D视觉正从“可选配置”走向“刚需标配”
华创证券· 2026-03-30 22:28
行业投资评级 - 报告对机器视觉行业给予“推荐(维持)”评级 [1] 报告核心观点 - 报告认为,机器视觉行业的核心趋势在于3D视觉拓展应用场景以及AI算法的渗透 [7] - 核心观点是:3D视觉感知技术正从工业级向消费级拓展,在底层技术成熟、成本下降及下游需求(如机器人、3D打印、AIoT)快速提升的驱动下,3D视觉正从“可选配置”走向“刚需标配” [6][7][8] - 报告看好全球3D视觉渗透率的提升,并建议关注相关上市公司奥比中光、思看科技、奥普特等 [6][8] 根据目录总结 一、3D视觉:从平面到立体,算法为核,实现3D重建 - **技术定义**:3D视觉不同于仅提供平面内形状和纹理信息的传统2D图像,它能够为AI算法同步提供物体的深度、形貌、位姿等3D信息,实现识别、定位和场景重建等功能 [6][11] - **实现过程**:3D重建(3D感知)是指利用光学传感器获取的2D图像序列,结合计算机视觉算法,恢复物体三维几何形状、空间位置及表面纹理的过程 [6][14] - **产业链结构**:产业链上游为3D视觉传感器硬件供应商,中游为方案及算法商,下游为消费级及工业级应用场景 [6][17] - **产业链价值分布**:上游3D传感模组硬件中,发射端、接收端、光学部件和模组组装的价值量占比分别为14%、18%、28%和40% [21] - **核心壁垒**:3D视觉最终通过计算得到,因此企业不仅需要掌握核心芯片、光学、算法等底层能力,还需要具备结构光、iToF、双目、dToF、Lidar、工业三维测量等全领域技术路线的布局和产品开发能力 [6][24] 二、核心技术路径多元并存,各擅其长 - **主流技术**:目前主流三维成像技术按景深信息获取方式可分为双目视觉、结构光及飞行时间(TOF)系统 [6][27] - **双目视觉**:实施成本低,适合远距离测量,深度分辨误差是测量距离的二次函数,在远距离仍能保持较高精度;缺点是对环境光照敏感、对物体自身纹理有依赖、匹配像素计算量大 [27][28][29] - **结构光**:在近距离(<2米)能实现高空间分辨率和高精度;缺点是提取一帧信息需要多次投影可能降低帧率,室外环境光可能干扰图像调制,且远距离探测需要光源远离镜头 [27][36] - **TOF技术**:用“光”测距,根据测量传播时间方式不同分为直接测量法(dToF)和间接测量法(iToF) [6][39] - **dToF**:适配远距离探测且动态范围大 [6][39] - **iToF**:在中近距离(0.5–5米)精度稳定,受环境光干扰较小,适合室内高精度场景,功耗较低 [6][40] 三、下游从工业领域起家,向消费级拓展 - **发展历程**:3D视觉感知技术最早应用于工业领域,用于高精度三维测量及微小形变测量,现正从工业级向消费级拓展 [6][45] - **工业测量领域**: - 产品形态多为扫描仪,相比传统三坐标测量等设备,具有无接触、无损伤、速度快、使用场景广等优势 [46][48][49] - 据弗若斯特沙利文数据,2022年全球三维视觉产品规模为122.9亿元,中国为14.9亿元;预计到2027年,中国市场规模有望增长至60.3亿元,2022-2027年复合年增长率为32.3% [49][51] - **3D打印领域**: - 3D扫描是3D视觉感知的典型应用,能降低数字创作门槛 [50][52] - 以创想三维为例,2023-2025年其3D扫描仪销售量分别为24,000、72,100、85,600件,与3D打印机的配比关系从36:1优化至9:1,平均售价从1,732元提升至4,274元 [54][55] - 据灼识咨询,2024年全球消费级3D扫描仪市场规模(按GMV计)达1.06亿美元,预计到2029年将增长至2.34亿美元,年复合增长率为17.1% [55][58] - **机器人领域**: - 智能机器人、工业机器人、服务机器人等均对3D视觉有明确需求 [59] - 以人形机器人为例,根据宇树科技数据,其人形机器人单台配套1台外购光学相机,该相机在原材料采购中占比靠前 [61][62] - 据行业研究机构预测,到2030年全球人形机器人市场规模预计将达到150亿美元,销量将增长至60.57万台;其中,中国市场预计将达到近380亿元,销量将增长至27.12万台 [64] 四、投资建议(重点公司分析) - **奥比中光**: - 公司构建了“全栈式技术研发能力+全领域技术路线布局”的3D视觉感知技术体系,产品覆盖结构光、iToF、双目、dToF、激光雷达等多种技术 [66][68] - 核心引擎芯片自研自产,已完成五代深度引擎芯片、三款dToF感光芯片、两款iToF感光芯片的开发 [70] - 下游应用广泛,覆盖生物识别、机器人、3D打印、AIoT、工业测量等领域,并与NVIDIA生态深入融合 [70][71][72] - **思看科技**: - 公司是三维视觉数字化综合解决方案提供商,产品覆盖工业级和专业级两大赛道 [73] - 在硬件和软件算法上均具备自主研发能力,已形成三大核心技术集群和18项核心技术 [76][77] - 公司与深圳拓竹科技签订框架合作协议,共同设计开发消费级3D扫描仪,拓展消费级3D打印市场 [79] - **奥普特**: - 公司是机器视觉核心软硬件产品提供商,核心技术包括工业AI算法、传统视觉算法、3D视觉算法等 [80] - 与越疆科技深度合作,其3D视觉系统协同机械臂在高速分拣场景下实现单小时分拣超1500件,准确率超99% [80] - 公司拟通过可转债募资,其中部分资金将用于工业3D视觉传感器及智能硬件扩产、AI智能视觉解决方案研发、以及工业级机器人核心零部件及视觉系统研发产业化等项目 [80][82]
破解在线长时序重建难题!纯视觉、单卡实时的公里级流式3D重建|CVPR'26
量子位· 2026-03-24 12:59
文章核心观点 - 由香港科技大学(广州)与地平线等机构联合提出的LongStream模型,旨在解决长序列、严格在线、实时流式3D重建的长期难题,其核心价值在于将3D视觉从“离线重建”范式推进到“在线世界建模”的新阶段,为自动驾驶、机器人、AR/VR及具身智能等需要持续、稳定、实时更新三维世界模型的应用提供了可行的技术路径 [2][21][22] 技术挑战与问题定义 - 在真实长视频、严格在线、未来帧不可见的设定下,现有3D重建方法面临序列越长精度越易退化、尺度漂移、缓存累积导致推理稳定性下降、内存与延迟随序列增长恶化甚至内存溢出(OOM)等核心挑战 [2][4] - 现有自回归模型处理长序列时存在三大问题:1) 对第一帧锚定的依赖导致训练与推理错位,外推误差被不断放大;2) 注意力陷阱(Attention Sink),模型过度关注首帧而忽视对重建更关键的时空邻近帧;3) KV cache缓存污染导致表征污染、记忆饱和和几何漂移 [5][6] 核心技术创新 - LongStream提出了一种全新的“Gauge-decoupled流式视觉几何架构”,其三大创新点包括:1) 摆脱“第一帧锚定”,改为预测相对关键帧的位姿,将长程外推问题转化为更稳定的局部任务;2) 采用“缓存一致训练”,在训练阶段显式传递并裁剪缓存,使训练上下文贴近真实流式推理,缩小训练与推理鸿沟;3) 结合“周期性缓存刷新”,定期边缘化陈旧上下文,清理退化记忆,抑制长期饱和与几何漂移 [10][11] - 该架构使系统能够在关键帧处刷新缓存而不破坏重建一致性,从而更接近“无限流”处理能力 [11] 性能表现与实验结果 - 模型实现了18 FPS的流式自回归推理速度,支持公里级超长序列和上千帧序列的稳定重建,并实现稳定的米制尺度重建 [4][16] - 在KITTI数据集多个长序列测试中,LongStream的平均绝对轨迹误差(ATE)为51.90,显著优于对比方法(如FastVGGT的189.29、TTT3R的177.73等)[17] - 在KITTI序列00(长度3.7公里)上,LongStream的ATE为92.55,远低于FastVGGT的705.39和CUT3R的185.89 [17] - 在其他基准测试中同样表现强劲:在TUM-RGBD数据集上ATE为0.076(优于FastVGGT的0.418),在Waymo数据集上ATE为0.737(优于FastVGGT的1.281)[17] - 相比基线方法,LongStream在千帧级流式测试中资源占用更加稳定,显存占用未随序列长度快速增长 [16] 应用场景与行业意义 - 该技术满足了机器人、自动驾驶、AR眼镜及具身智能(Embodied AI)等应用对系统能长期稳定、实时更新、资源可控的共同要求 [19][20] - 其意义在于展示了一条更接近真实部署约束的3D视觉范式,即从“一次性重建一个场景”转变为“持续维护一个世界”,成为“在线世界建模引擎”[18][21] - 该工作将流式3D重建推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段,为相关行业提供了值得持续关注的技术路径 [22]
Teledyne e2v推出Perciva™ 5D相机:为工业、零售及机器人成像提供近距离无遮挡3D视觉解决方案
Globenewswire· 2026-03-09 08:00
产品发布与核心创新 - Teledyne科技旗下公司推出Perciva™ 5D相机 这是一项旨在以经济高效 可靠且易于集成的方案实现高质量短距离3D视觉的突破性成像创新[1] - 该相机通过独特的角敏感像素技术和先进的板载处理 可在校准工作距离范围内进行实时2D与3D图像融合[1] - Perciva 5D配备强大的神经处理单元 支持AI模型在设备端运行 并可根据客户特定需求进行定制[1] 技术特性与优势 - Perciva 5D通过单个CMOS传感器生成2D与3D数据 不受光学遮挡影响 可同步输出时间对齐的2D帧与像素对齐的3D深度图[2] - 相机具备直接集成的全面3D处理能力 用户可即时获取深度图或点云输出[2] - 采用环境光工作模式 室内外皆可使用 无需外部近红外光源即可保持可靠性能 同时最大限度降低整体系统成本[2] - 产品专为严苛环境设计 配备IP6x级防护外壳及工业级M12连接器 通过符合GenICam标准的GigE Vision接口实现即插即用集成[2] - 相机重量为230克 功耗低于5W 支持用户可调帧率或触发采集模式 并提供多种供电方案[3] 目标应用与市场推广 - 该产品适用于机器人 零售自助结账系统及工业3D工艺监控等应用场景[3] - 相机可无缝集成Teledyne的Spinnaker® 4 API及SpinView®进行2D/3D可视化处理 并兼容主流机器视觉软件平台[3] - Perciva 5D将于2026年3月10日至12日在德国纽伦堡举办的Embedded World展会期间亮相[3] 公司背景与能力 - Teledyne视觉解决方案提供垂直整合的综合工业和科学成像技术产品组合[4] - 旗下多个品牌互相协作 形成各领域的专长集合 提供深厚而广泛的传感和相关技术组合[4] - 公司提供全球客户支持和技术专长 其工具 技术和视觉解决方案旨在为客户提供竞争优势[4]
研判2026!中国视觉检测系统行业产业链、市场规模及发展趋势分析:智能化趋势下,行业稳健发展[图]
产业信息网· 2026-02-01 10:28
行业概述与定义 - 视觉检测系统是一种基于计算机视觉技术的自动化检测方案,通过工业相机、光源、图像处理与算法模块,实现缺陷识别、尺寸测量和定位引导等功能 [2] - 系统主要分为在线检测系统和离线检测系统两大类,在线系统集成于流水线实现100%实时全自动检测,离线系统独立于产线用于抽样检测,两者在实际应用中常形成互补 [2] 产业链结构 - 产业链上游包括光源、工业镜头、工业相机、图像传感器、图像采集卡、控制器及图像处理算法库、AI平台等基础硬件和软件 [3] - 产业链中游为视觉检测系统整机制造与系统集成环节 [3] - 产业链下游主要应用于3C电子、汽车、半导体、医疗、食品、包装印刷等行业,以提高生产效率和产品质量 [3] 市场规模与驱动因素 - 2024年中国视觉检测系统行业市场规模约为32.64亿元,同比增长9.71% [1][6] - 2024年中国图像传感器行业市场规模约为972.24亿元,同比增长10.71%,其性能提升助力视觉检测系统实现更高检测速度与更复杂3D场景分析 [5] - 2025年中国汽车产销量预计分别为3453.1万辆和3440万辆,同比分别增长10.4%和9.4%,汽车产销量增长带动了对高节拍、高精度视觉检测系统的需求 [5] 重点企业经营情况 - 天准科技致力于打造视觉装备平台,通过自主研发、海外并购等方式强化在半导体检测设备领域的布局,其TB系列为8寸/12寸晶圆提供缺陷检测 [7] - 2025年上半年,天准科技视觉检测装备产品营业收入为0.65亿元,同比下降70.81% [7] - 大华股份依托“慧视智眼”技术,在化工园区安全监管中实现单设备60-180路视频分析 [7] - 凌云光的印刷检测系统将缺陷识别效率提升90%,2025年前三季度,公司营业收入为21.27亿元,同比增长34.30%;归母净利润为1.33亿元,同比增长18.46% [7][9] - 海康威视发布了海康机器人多形态2.5D视觉检测系统 [7] 行业发展趋势 - 技术加速变革,未来“3D视觉+AI”将成为主流技术路径,以解决传统2D视觉痛点,AI的深度融合正推动系统从“辅助工具”向“自主决策系统”演进 [9] - 应用场景持续拓宽,一方面向适应小批量、多品种的柔性制造需求发展,另一方面从工业制造向医疗影像分析、零售运营、物流分拣等更广阔领域延伸 [10] - 产业生态从“国产替代”向“自主创新”与“生态共建”升级,行业需重点攻克半导体、精密制造等领域的高端需求,并构建协同开放的产业生态,同时伴随中国制造业出海加快国际化步伐 [11]
三大“碰一下”龙头股价齐创新高 NFC热潮助推A股科技股
中国基金报· 2026-01-12 16:30
市场整体表现 - 2026年1月12日,A股市场消费电子与芯片板块大涨,蓝思科技、复旦微电、奥比中光股价联袂上涨,成交额急剧放大,围绕移动新交互方式的资本盛宴拉开序幕[1] - 以支付宝“碰一下”功能为核心的NFC产业链成为市场焦点,支付宝凭借庞大用户基础,将NFC功能转化为连接物理与数字服务的超级入口,重塑了整个产业链价值[1] - 市场资金正沿着“碰一下”产业链逐级挖掘机会,从上游芯片设计、中游制造到未来交互生态,相关公司股价逆市走强已成为市场共识[8] 蓝思科技 (300433.SZ) - 公司是支付宝“碰一下”设备的首批代供商,凭借在精密制造领域的积累承担了首发工程,这为其开辟了继消费电子后的“第二增长曲线”[2][3] - 2026年1月12日,公司股价收报42.66元,大涨10%,创下新高,全天成交额高达120亿元,换手率超过5%[2] - 自支付宝“碰一下”于2024年7月8日发布以来,公司股价累计涨幅高达147%[2] - 随着“碰一下”功能从支付扩展到点餐、开门、社交名片交换等高频场景,对设备的需求不断扩大,为公司带来新的增长动力[3] 复旦微电 (688385.SH) - 公司是国内领先的安全与识别芯片设计公司,在NFC和安全芯片领域技术积淀深厚,为“碰一下”功能提供了核心的芯片读取与加密认证[4][5] - 2026年1月12日,在概念催化下,公司股价收盘报98元,涨幅高达9.84%[4] - 自2024年7月8日支付宝“碰一下”发布以来,公司股价累计增长已超过220%[5] - 受支付宝等应用推动,国内手机NFC使用频次持续增加,直接利好上游芯片厂商,当日有大额主力资金净流入公司,机构投资者正积极布局[5] - 在强调科技自立和供应链安全的背景下,公司作为国产芯片核心标的,价值在“碰一下”这一杀手级应用推动下得到进一步凸显[5] 奥比中光 (688322.SH) - 公司作为3D视觉领军者,其长期上涨体现了市场对未来交互方式的想象力,3D视觉是“空间”交互的核心,而“碰一下”代表的NFC是“近场”交互方案[6] - 随着AI硬件和具身智能时代到来,未来智能终端将融合多种交互模态,3D视觉技术为未来的AR眼镜、服务机器人、智能座舱铺路[6][7] - 公司是全球少数掌握核心技术、实现百万级面阵3D视觉传感器量产的企业,在机器人、元宇宙、AIoT等领域的布局使其成为未来科技浪潮中不可或缺的一环[7] - 资本市场将技术领先的公司放在一起估值,是在为整个AI硬件生态的爆发提前下注,寻找能够重新定义人机交互的平台级机会[7] 产业链逻辑 - “碰一下”产业链清晰地勾勒出一条投资地图:最上游的芯片设计(复旦微电)、中游的新材料与精密制造(蓝思科技)、以及代表未来交互生态的3D视觉(奥比中光)[8] - 支付宝成功激活了存量的NFC生态,将其从一个“沉睡”的手机功能转化为高频应用场景的超级入口,这直接驱动了上游芯片需求和中游设备制造需求[1][3][5] - 市场逻辑不仅限于NFC技术的直接受益者,更延伸至对未来融合交互生态的预期,将NFC近场交互与3D视觉空间交互视为互补的下一代交互模态[6][7]
奥比中光将携“端侧AI之眼”亮相CES 2026,3D视觉赋能具身智能新生态
新浪财经· 2026-01-05 12:09
公司核心动态与战略 - 奥比中光将携多款3D视觉新品、生态协同成果及机器人整机制造能力亮相2026年1月6-9日举行的CES展会 [1][6] - 公司以打造“端侧AI之眼”为核心,持续拓展3D视觉感知技术应用边界,为具身智能及各类AI端侧设备提供关键支撑 [1][6] - 此次CES亮相是公司技术积累与商业化能力的集中兑现,也是对未来赛道的精准卡位 [5][10] 新品发布与技术布局 - 公司将发布多款面向人形机器人、户外自主移动机器人(AMR)场景的3D相机新品 [1][6] - 新品聚焦精细操作感知、复杂环境适应与系统协同三大核心需求,旨在提供更稳定、可落地的视觉感知方案 [1][6] - 公司将重点展示与NVIDIA新一代边缘算力核心平台Jetson Thor的最新适配成果,助力机器人厂商实现更高效的系统集成 [2][7] - 截至目前,公司已有十余款主流产品完成英伟达Jetson平台集成 [2][7] 业务能力与制造服务 - 公司将展示其“机器人整机制造能力”,依托超10万平方米的产业智能制造基地,可提供机器人等智能端侧硬件的整机及部件OEM服务 [2][7] - 公司已为理疗机器人、智能割草机、人形机器人、仓储机器人等多品类客户代工,有效缩短客户产品上市周期并降低生产成本 [2][7] - 公司技术路线持续演进,已形成“核心技术+标准产品+场景方案+制造服务”的立体化能力矩阵 [5][9] 市场地位与客户基础 - 公司在中国国内3D视觉传感器市场的份额约占70% [4][9] - 公司在韩国商用及工业移动机器人3D视觉市场份额亦达72% [4][9] - 公司已向优必选、智元、天工、乐聚等人形机器人厂商供货 [3][8] - 公司与普渡科技、云迹科技、擎朗智能、高仙机器人等服务机器人企业合作,覆盖商用服务、养老康复、家庭护理、物流配送等各类场景 [3][8] 行业发展与市场机遇 - 具身智能成为新质生产力的核心落地场景,人形机器人加速商用,户外AMR在港口、矿卡等领域渗透提速 [3][8] - 复杂场景对视觉感知稳定性、精度提出更高要求,3D视觉赛道迎来广阔发展机遇 [3][8] - 人形机器人配备3D传感器将是产业趋势,乐观测算下2030年全球人形机器人行业3D视觉设备市场规模将达1,600亿元 [3][8] - 3D视觉传感器正成为智能硬件的“标配”趋势 [5][10] 技术沉淀与经营业绩 - 自2014年首次参展CES以来,公司持续展示技术成果,如2018年的支付宝3D人脸支付设备、2020年的机器人3D视觉解决方案、2023年与微软、英伟达联合研发的3D iToF相机Femto Mega [5][9] - 截至2025年上半年,公司累计申请专利已近2,000项,在3D感知领域的知识产权储备稳居全球第一梯队 [5][10] - 2025年前三季度,公司实现营业收入7.14亿元,同比增长103.50% [5][10] - 2025年前三季度,公司归母净利润1.08亿元,同比扭亏为盈,迈入高质量发展拐点 [5][10]
厘米级精度的三维场景实时重构!这款激光扫描仪太好用了~
自动驾驶之心· 2025-12-17 08:03
产品发布与定位 - 公司正式发布GeoScan S1手持三维激光扫描仪,定位为国内目前最强性价比的实景三维激光扫描仪 [3][11] - 产品由同济大学刘春教授团队与西北工业大学产业化团队合作推出,基于多年科研和行业积累,并经过上百个项目验证 [10][11] - 产品旨在构建数字世界、推动三维孪生,通过轻量化设计和一键启动降低开发门槛,助力开发者快速掌握研发能力 [3][12] 核心性能与技术参数 - 扫描性能:每秒生成20万点云,最远测量距离70米,水平视角360°全域覆盖,支持超过20万平方米的大场景扫描 [3][24][31][32] - 测量精度:相对精度优于3厘米,绝对精度优于5厘米,在70米距离处精度控制可达±1.5厘米 [24][31] - 传感器融合:集成3D激光雷达、双广角相机、深度相机、9自由度IMU、RTK模块,通过微秒级同步模块实现多传感器数据融合 [15][24][36][37] - 实时处理:支持三维点云地图动态构建、色彩融合与实时预览,建图过程支持实时解算 [24][29] - 计算单元:搭载Intel N5095四核处理器(主频2.0GHz,睿频2.9GHz),配备16GB内存和256GB存储 [24] 产品设计与硬件配置 - 外观设计:采用小巧一体化机身,尺寸为14.2cm * 9.5cm * 9.5cm * 45cm,外壳为航空铝材质,不含电池重量1.3公斤,含电池重量1.9公斤 [14][24] - 激光雷达采用25°倾斜角安装设计,兼顾多个方位,无需反复采集即可提高效率 [17][18] - 供电系统:配备可快拆充电手柄,内置88.8Wh弹夹电池,续航时间约3至4小时,支持13.8V至24V宽电压输入 [24][26][28] - 接口与扩展:设备自带手持Ubuntu 20.04系统,支持ROS,提供千兆网口、双USB 3.0接口、Micro SD卡槽,支持Wi-Fi/蓝牙连接,具备灵活的扩展能力 [5][24][25] 软件功能与数据输出 - 软件系统:搭载成熟的多传感器融合SLAM建图算法,可实时输出高精度彩色点云数据 [29][36] - 数据输出:支持输出彩色点云,导出数据格式包括pcd、las、plv等多种通用格式 [24] - 3D高斯渲染:提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,可实现高保真实景还原 [7][8][53] - 操作流程:软件提供快速建图、启动相机、调整曝光参数、录包保存数据等功能,操作界面直观 [45] 应用场景 - 广泛适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等 [40][49] - 支持与无人机、无人车、机械狗、人形机器人等多种负载平台集成,实现跨平台组合与无人化作业 [47] - 具体应用领域涵盖地理信息数据采集、城市规划、文物保护、建筑测绘、施工工程精度控制等 [55][57] 产品版本与价格 - 公司推出四个版本以满足不同需求:基础版、深度相机版、3DGS在线版、3DGS离线版 [60] - 产品首发价格:基础版本19800元起,深度相机版本23800元,3DGS在线版本39800元,3DGS离线版本67800元 [11][60][61] - 3DGS在线版包含两个月3D高斯云服务,后续云服务续费为5000元/月;离线版需客户自备高性能服务器或由公司另行提供 [61] - 购买产品可提供为期1年的售后服务 [62]
华为Mate80全系支持3D人脸识别,产业链需求激增
选股宝· 2025-11-25 23:03
产品发布与技术创新 - 华为于11月25日正式发布Mate 80系列手机,全系支持3D人脸识别 [1] - 华为Mate 80系列全系标配3D ToF技术,实现金融级支付安全,并支持超过150个主流应用进行3D人脸登录或支付 [1] - 该系列手机支持华为账号一键登录关联3D人脸验证 [1] 行业趋势与市场前景 - 东吴证券认为2024年为3D视觉产业开始爆发的元年 [1] - 2024年前,3D产业应用场景少,市场需求和产业积累弱 [1] - 2024年后,3D视觉应用场景不断扩展,成为实现高精度感知与自主操作的关键技术 [1] - 自动移动机器人、3D打印、人形机器人、机械臂、灵巧手等领域的快速发展对实时深度感知产生硬性需求,导致3D视觉需求激增 [1] 相关公司业务布局 - 奥比中光已将3D视觉传感器应用于线下零售、自助货柜、餐饮、医疗以及交通等支付场景 [2] - 欧菲光凭借光学技术和生产制造自动化能力,布局智能门锁、VR/AR、机器视觉、运动相机等新领域 [2]
这台3D扫描仪,重建了整个隧道和公园~
自动驾驶之心· 2025-11-25 08:03
产品核心定位 - 产品定位为最强性价比手持实景三维激光扫描仪,旨在降低开发门槛,助力开发者快速掌握研发能力 [3][6] - 由同济大学刘春教授团队与西北工业大学产业化团队合作开发,基于多年科研和行业积累,并经过上百个项目验证 [11] - 核心价值在于以轻量化设计和多模态传感器融合算法,提供高效实用的三维解决方案,实现厘米级精度的三维场景实时重构 [3][12] 核心性能参数 - 扫描性能卓越,每秒可生成20万点云,最远测量距离达70米,相对精度优于3厘米,绝对精度优于5厘米 [3][24][31] - 支持超20万平方米的大场景扫描,水平视角360°全域覆盖,并支持彩色点云融合输出 [3][24][32] - 系统搭载Ubuntu 20.04操作系统,支持ROS,具备实时解算和实时预览能力,数据可导出为pcd、las、ply等多种通用格式 [24] 硬件配置与设计 - 采用高度集成的一体化设计,机身尺寸为14.2cm * 9.5cm * 45cm,含电池重量为1.9kg,小巧便携 [14][24] - 集成丰富的传感器资源,包括3D激光雷达、双广角相机、深度相机、9DOF IMU、RTK模块,并采用微秒级同步技术确保数据同步精度 [15][24][25][36] - 激光雷达采用25°倾斜角度安装的小倾角设计,可兼顾多个方位扫描,提升采集效率 [17][18] - 硬件配置包括Intel N5095四核处理器、16G内存、256G硬盘,并配备高带宽网口、双USB 3.0接口及Micro SD卡槽,扩展性强 [24][25] 软件功能与操作 - 软件系统支持三维点云地图动态构建、色彩融合和实时预览,操作简单直观,可一键启动执行扫描作业 [6][24][29] - 提供快速建图、彩色点云建图、相机程序、数据录制等多种软件功能,扫描结果导出即用,无需复杂部署 [6][45] - 推出3D高斯(3DGS)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [7][8][53] 应用场景 - 设备适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等,能够精准完成三维场景地图构建 [40][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [47] - 在地理信息数据采集、城市规划、文物保护、施工工程等领域均有应用潜力 [55][57] 产品版本与定价 - 提供四个版本以满足不同需求:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元,云服务续费5000元/月)、3DGS离线版(67800元) [60][61] - 购买可享受为期1年的售后服务,并可通过优惠码DSAA-5T9R-K2M8获取优惠 [62]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 08:47
技术突破与核心观点 - 字节跳动团队推出Depth Anything 3(DA3),将单目深度估计扩展至任意视角场景,使计算机空间感知能力媲美人类[5] - 研究证明当前多数3D视觉研究存在过度设计问题,仅需一个简单的、用深度光线表示训练的Transformer即可实现强大性能[2][9] - DA3采用最小化建模理念,仅使用标准Transformer架构(如DINOv2编码器)和单一深度光线预测目标,无需复杂多任务学习或专门架构设计[7][12] 方法创新与架构设计 - DA3将几何重建目标建模为密集预测任务,训练模型根据N张输入图像输出N个对应的深度图和光线图[13] - 引入输入自适应的跨视图自注意力机制,在前向传播中动态重新排列token以实现跨视图高效信息交换[13] - 采用双DPT头联合输出深度值和光线值,并通过相机编码器选择性整合已知相机姿态增强灵活性[13] - 训练采用师生范式统一不同训练数据,使用伪标注策略为真实世界数据生成高质量伪深度图[14] 性能表现与基准测试 - 在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%[7] - 建立新视觉几何基准,在10项任务中均取得SOTA成绩,相机姿态精度比SOTA VGGT平均提高35.7%,几何精度提高23.6%[15] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[15] - 所有模型完全基于公开学术数据集训练[16] 应用潜力与功能展示 - 具备视频重建能力,能从任意数量视图(单视图到多视图)恢复视觉空间[18] - 提升SLAM性能,在大规模环境下仅替换VGGT-Long中的VGGT(DA3-Long)即可显著降低漂移,效果优于需48小时以上的COLMAP[20] - 通过冻结主干网络并训练DPT头部预测3D高斯参数,实现强大泛化能力的新颖视图合成[22] - 适用于自动驾驶多摄像头空间感知,从车辆不同视角估计稳定可融合的深度图[24]