三维重建
搜索文档
摸底GS重建在自动驾驶业内的岗位需求......
自动驾驶之心· 2026-01-19 17:04
行业需求与岗位分析 - 有企业在2026年计划在重建方向投入招聘名额(HC) [2] - 重建技术主要用于自动驾驶测试的闭环仿真 具体流程是对离线片段(clip)数据用3D高斯泼溅(3DGS)重建动静态元素 以验证新模型能否预测合理轨迹并正常行驶 [2] - 支撑闭环仿真中重建优化的算法团队 一般公司需要5至20人 [3] - 云端数据生产也有需求 例如BEV视角下的静态路面重建(2DGS)可应用于静态真值生产 [3] - 小米的ParkGaussian将GS技术应用到泊车场景中 [3] - 综合来看 每个技术方向都需要至少10人左右的算法团队来支撑最基本的功能需求 [3] 技术发展路径与学习资源 - 3DGS领域较新 缺乏有效学习资料 对初学者困难 [3] - 梳理出的明确技术发展路线为:静态重建3DGS → 动态重建4DGS → 表面重建2DGS → 场景重建混合GS → 前馈GS [3] - 为应对学习需求 推出了《3DGS理论与算法实战教程》 花费两个月时间设计了一套从原理到实战的学习路线图 [3] 课程核心内容与结构 - 课程旨在帮助学员全面掌握3DGS技术栈 [3] - 第一章讲解3DGS背景知识 包括计算机图形学基础、三维空间表达、渲染管线、光线追踪、辐射场渲染 以及COLMAP、Gsplat等开发工具 并设有基于3D Real Car训练模型的小作业 [8] - 第二章深入讲解3DGS原理与算法 包括核心伪代码、动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战选用英伟达开源的3DGRUT框架 [9] - 第三章聚焦自动驾驶仿真重建 重点讲解Street Gaussian、OmniRe和Hierarchy UGP三篇工作 实战选用DriveStudio框架 [10] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及Relighting 并分析其工业界应用与学术前景 [11] - 第五章讲解前馈3DGS(Feed-Forward 3DGS) 梳理其发展历程与算法原理 并解析AnySplat和WorldSplat两篇最新算法工作 [12] - 第六章为线上答疑讨论 涉及3DGS岗位需求、行业痛点及开放性问题 [13] 课程安排与面向人群 - 课程为离线视频教学 辅以VIP群答疑及三次线上答疑 [15] - 课程于12月1日开课 预计两个半月结课 [15] - 章节解锁时间安排:第一章12月1日 第二章12月7日 第三章1月7日 第四章1月21日 第五章2月4日 [15] - 面向具备一定计算机图形学、视觉重建(如NeRF、3DGS)、概率论与线性代数基础 以及Python和PyTorch语言基础的学员 [17] - 学员需自备GPU 推荐算力在RTX 4090及以上 [17] - 课程目标使学员掌握3DGS完善的理论知识及相关技术栈、算法开发框架 并能与学术界及工业界同行持续交流 [17]
前馈GS在自驾场景落地的难点是什么?
自动驾驶之心· 2025-12-26 11:32
课程核心内容与结构 - 课程旨在提供一套全面的3D高斯泼溅技术学习路线图,从原理到实战,帮助学员掌握3DGS技术栈 [2] - 课程由自动驾驶之心联合工业界算法专家设计,历时两个月开发 [2] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,开课时间为12月1日,预计两个半月结课 [13] 讲师背景 - 讲师Chris拥有QS20硕士学位,现任某Tier1厂商算法专家 [3] - 讲师从事端到端仿真、多模态大模型、世界模型等前沿算法的预研和量产,并参与过全球TOP主机厂的仿真引擎及工具链开发 [3] - 讲师拥有丰富的三维重建实战经验 [3] 课程大纲详解 - **第一章:3DGS的背景知识**:概述计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、SuperSplat、Gsplat等开发工具,附带基于3D Real Car训练模型的小作业 [6] - **第二章:3DGS的原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战部分使用英伟达开源的3DGRUT框架 [7] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战使用学术界和工业界广泛采用的DriveStudio [8] - **第四章:3DGS重要的研究方向**:探讨COLMAP扩展、深度估计及Relighting等研究方向,并分析其工业界应用与学术前景 [9] - **第五章:Feed-Forward 3DGS**:梳理前馈3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作 [10] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题 [11] 课程面向人群与学后收获 - **面向人群**:课程要求学员自备GPU,推荐算力在4090及以上,并具备计算机图形学基础、对视觉重建/NeRF/3DGS有一定了解、有概率论与线性代数基础、熟悉Python和PyTorch [15] - **学后收获**:学员将掌握3DGS完善的理论知识及相关技术栈、掌握算法开发框架并能训练开源模型、可与学术界及工业界同行持续交流,对实习、校招、社招均有助益 [15] 行业技术动态与课程关联 - 前馈3DGS是当前热门方向,旨在克服传统“per-scene optimization”的不便,但其在点云精度上仍有不足,尤其在私有数据域上精度不稳定 [2] - 课程内容紧密联系行业前沿,如第三章聚焦自动驾驶仿真,第五章专门探讨Feed-Forward 3DGS [8][10]
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
量子位· 2025-11-20 15:01
文章核心观点 - Meta AI发布SAM 3D模型,能够从单张2D图像直接生成精细的3D模型,代表了3D建模领域的新范式[1][4][7] - 同时发布的SAM 3模型在图像分割基础上增强了语义理解能力,支持通过文本或示例提示进行开放词汇的概念分割[5][6][23] - 两个模型系列在各自领域的多项基准测试中均取得了显著优于现有方法的性能,达到SOTA水平[13][17][36] SAM 3D模型技术特点与性能 - SAM 3D包含两个专用模型:SAM 3D Objects用于物体和场景重建,SAM 3D Body专注于人体建模[8] - SAM 3D Objects能够处理小物体、间接视角和遮挡等复杂情况,从单张自然图像实现3D重建和物体姿态估计[10][11] - 在人类用户对比测试中,SAM 3D Objects的胜率至少达到其他领先模型的5倍[14] - 具体性能指标显示显著优势:F1分数达0.2339,Chamfer距离为0.0408,3D IoU为0.4254,ADD-S@0.1为0.7232[15] - SAM 3D Body在复杂情况下表现优异,MPJPE指标为61.7,PVE为60.3,在多个数据集上的PCK指标分别为68.0和75.4[18] SAM 3模型技术突破 - 突破传统分割模型固定标签集的限制,引入可提示概念分割功能,支持通过文本或示例提示定义概念[21][23][24] - 能够处理细微概念如"红色条纹伞",并通过文本指令或选中示例物体来查找分割所有同类物体[22][26][31] - 在LVIS数据集的零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[37] - 在新的SA-Co基准测试中,表现至少比基线方法强2倍[38] - 在视频分割任务中性能优于SAM 2,在多个数据集上的J&F指标达到78.4至89.6[40] 模型架构与实现方法 - SAM 3基于共享的Perception Encoder视觉骨干网络,服务检测器和追踪器模块[41][43] - 创新设计Presence Head解决开放词汇检测中的幻觉问题,解耦识别与定位任务[45] - SAM 3D Objects采用两阶段生成模型:12亿参数流匹配Transformer构建几何,稀疏潜在流匹配细化纹理[48][49][51] - 通过model-in-the-loop数据引擎低成本获取图像-3D配对数据,人类从8个候选中选择最佳匹配[53][54] - SAM 3D Body采用Momentum Human Rig表示法,双路解码器设计分别处理全身和手部细节[55][57][61] 行业影响与数据集 - Meta与艺术家合作构建SAM 3D艺术家物体数据集SA-3DAO,用于评估物理世界图像三维重建能力[20] - 创建SA-Co基准测试评估大词汇量检测和分割性能,要求识别更大概念词汇量[33][34] - 模型能够很好泛化到多种类型图像,支持密集场景重建,标志着基础模型具身化的进展[13][60]
高德如何助力文博业“打破无限”?
21世纪经济报道· 2025-09-30 19:56
行业背景与政策导向 - 文物保护面临长期挑战,文物数字化成为明确的发展方向 [1] - 2021年九部委在《关于推进博物馆改革发展的指导意见》中明确提出加快藏品数字化和完善藏品数据库 [1] - 各地正积极推动文物保护与利用的智慧化、数字化转型,以数字化展示带动博物馆提质升级 [1] 文博数字化面临的挑战 - 行业长期存在难以逾越的障碍,包括藏品体量庞大、文物脆弱、采集窗口受限 [5] - 传统三维建模依赖手工、周期长、成本高,且需满足严苛的安全与合规要求 [5] - 文旅热潮下出现新矛盾,如线下限流与线上引流的运营错配,以及算力与存储的刚性投入 [5] - 具体表现为三大痛点:物理可达性受限、大规模数字化瓶颈突出、运营压力长期存在 [5] 公司的技术方案与产品 - 公司以三维重建与导航能力切入文博数字化,并计划推出"线上博物馆"工具包以降低制作与上线门槛 [3] - 基于"云境"三维重建技术融合海量时空数据,打造时空数字底座,旨在提升效率、压低成本 [6] - 公司推动文物从静态收藏向数字资产的动态管理转变,通过AI和三维重建技术实现文物活化 [8] - 云境平台升级后首次支持4DGS技术,完成从静态重建到动态三维重建的跨越,并适配国产GPU实现渲染引擎国产化 [9] - 公司专注于真实世界的还原与基础设施供给,以"一张文博地图"为目标,不延伸至内容经营 [13] 公司的标杆项目与合作生态 - 2024年8月,公司与故宫宣布共建"故宫×高德AI三维重建创新实验室",聚焦复杂环境下的数据采集难题 [8] - 该实验室以故宫雨花阁、内务府造办处考古遗址等为主体,旨在规范数字文物模型生产工艺标准 [8] - 公司已形成文旅文博的产学研生态,与北航、北邮、央美等院校及头部博物馆开展合作 [12] - 公司与故宫合作的科技部重大专项《大型综合性博物馆数字孪生关键技术研究与服务示范》正在推进,旨在提供可复制的创新范例 [11] 公司的竞争优势与市场定位 - 公司定义其赛道为"打破无限",旨在用AI、数字孪生与生态合作打破时间、空间与维度的限制 [3] - 中国在大模型应用上迭代速度快,叠加超大规模用户体量带来的数据与场景优势,形成高频的真实世界反馈回路 [10] - 公司具备独特优势:大众UGC基础雄厚、公众表达意愿强,以及权威机构提供的严肃内容供给充足 [10] - 公司形成"线上展陈—线下导流—客流预测与疏导"的运营闭环,走出一条国产化、低成本、可复制的落地路径 [13] 应用案例与社会价值 - 以湖南博物院线上展厅为例,平台集成官方权威内容并开放社会创作入口,引入专业化表达提升公众参与度 [11] - 在安徽宣城郎溪县,文物工作人员使用公司地图对文物点精准定位与标注,整合分散的工作链路,提升普查效率与日常运维便利性 [13][14] - 公司结合大数据与AI技术推动智慧服务,设想通过数字孪生、三维激光扫描、AR/VR等技术打造沉浸式数字展厅,实现文化传播破圈 [9]
世界机器人大会引爆3D视觉革命,空间智能成焦点~
自动驾驶之心· 2025-08-11 13:45
三维感知技术趋势 - 全球首款千元级空间记忆模组MindPalace Odin1亮相,可实时生成三维点云模型,融合多模态传感器与自研MindSLAM算法 [2] - 第三代多维触觉传感器PX-6AX-GEN3实现每秒百万次采样频率,输出15维力觉数据 [2] - 3D激光雷达Pulsar ME450与双目相机Gemini 345Lg具备超宽温域和抗干扰性能 [2] - 三维重建技术正从实验室走向千行百业,成为机器人感知世界的新基建 [2] 激光扫描技术突破 - D-H100手持激光扫描仪实现120米超远距厘米级精度扫描,搭载LiDAR SLAM与双频GNSS天线 [4] - 设备重量仅1.83kg,效率提升300%,可在复杂环境中实时输出高精度点云 [4] - 激光扫描技术正与机器人深度绑定,可应用于灾区数字孪生、化工厂巡检、咖啡机器人路径优化等场景 [4][5] GeoScan S1产品亮点 - 国内最强性价比实景三维激光扫描仪,首发价19800元起 [7][14] - 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上大场景 [7] - 轻量化设计仅1.9kg(含电池),续航3-4小时,配备5.5寸触控屏 [25] - 多传感器融合包括RTK、3D激光雷达、9DOF IMU、双广角相机等 [18] 技术参数 - 相对精度优于3cm,绝对精度优于5cm [25] - 采用Intel N5095处理器,4核2.0GHz,16G内存/256G存储 [25] - 支持pcd、las、ply等多种数据格式导出 [25] - 微秒级同步技术实现多传感器数据融合 [33][34] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂环境 [39][48] - 支持跨平台集成,适配无人机、无人车、机械狗、人形机器人等多种负载平台 [45] - 3D高斯模块可选配,实现高保真实景还原 [52] 产品版本 - 基础版19800元,深度相机版23800元 [60] - 3DGS在线版39800元(含云服务),离线版67800元 [60] - 提供1年售后服务 [65]
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]
再见伪影!港大开源GS-SDF:SDF做高斯初始化还能这么稳~
自动驾驶之心· 2025-07-24 14:46
技术方案 - 提出统一的激光雷达-视觉系统,结合三维高斯喷溅(3DGS)与神经有符号距离场(NSDF),实现几何一致的真实感渲染与高精度表面重建 [5][6] - 通过NSDF提供的流形几何场进行高斯原语初始化,提升训练收敛性并减少悬浮伪影 [22][23] - 设计双向监督的形状正则化方法,在NSDF与高斯喷溅之间建立几何约束,优化渲染与重建效果 [6][28][33] 核心创新点 - 基于物理的高斯初始化策略,利用NSDF提取表面网格顶点作为初始位置,并通过SDF值定义不透明度 [23][24] - 针对背景渲染的"天空初始化"方案,在大球面上均匀布置高斯以避免前景伪影 [25] - 结合渲染法线一致性损失与SDF表面采样点约束的双重几何正则化框架 [30][33] 性能表现 - 在Replica数据集上平均表面重建精度达0.506cm(C-L1指标),优于M2Mapping的0.499cm [46] - 外推渲染SSIM达0.955,显著高于3DGS(0.914)和InstantNGP(0.944) [46] - FAST-LIVO2数据集测试中,平均PSNR达26.988,较基准方法提升1.5dB以上 [49] 应用场景 - 适用于机器人导航、数字孪生等需要实时高质量三维重建的领域 [1] - 支持低成本激光雷达与相机组合的硬件方案,降低部署门槛 [5][48] - 在稀疏观测条件下仍能保持几何一致性,适应复杂环境 [3][6] 实现细节 - 采用哈希编码+MLP构建可扩展的NSDF网络,通过Eikonal正则化保证梯度稳定性 [16][20] - 渲染阶段使用alpha混合的光栅化方法,结合L1+DSSIM损失优化颜色输出 [13][14] - 高斯属性参数化包含位置、切向量、缩放因子、不透明度及球谐函数编码颜色 [10][11]
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 21:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
新疆兵团八师:科技创新引领“戈壁明珠”新飞跃
中国新闻网· 2025-06-03 12:12
城市创新资源 - 石河子市拥有国家级经济技术开发区、国家高新技术产业开发区、国家农业科技园区三大发展引擎 [1] - 汇聚18所科研机构包括新疆农垦科学院、石河子农业科学研究院 [1] - 拥有12个国家级"双创"平台、31个省级以上重点实验室和技术创新中心 [1] - 成立石河子科技成果转移转化中心和北疆兵团区域科技创新联盟 [1] 科技创新成果 - 高新技术企业113家、科技型中小企业174家 [2] - 获国家科学技术进步奖二等奖6项、省级科学技术进步奖100余项 [2] - 天山铝业电解铝年产量突破百万吨 [2] - 众金电极箔创新成果推广至数十家企业创造综合效益数十亿元 [2] 绿色能源与农业科技 - 中新建电力集团光伏项目年提供绿色电力1.5亿千瓦时减少碳排放7.8万吨 [2] - 天业集团智能打顶机器人融合三维重建和AI技术 [3] - 自主研发"暗管排水控盐"技术解决盐碱地种植难题 [3] - 节水灌溉技术和大数据平台提升农业生产效率 [3] 政策支持与产业集群 - 出台"科技创新十条"对科技成果转化项目最高奖励500万元 [3] - 设立10亿元产业基金支持龙头企业发展 [3] - 经开区修订政策加大人才引育力度设立"人才发展专项资金" [3] - 以六大产业集群为基石推动高质量发展 [3]