三维重建 - 财报，业绩电话会，研报，新闻 - Reportify

三维重建

搜索文档

前馈GS在自驾场景落地的难点是什么？

自动驾驶之心· 2025-12-26 11:32

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线这两天有小伙伴在群里抛出这个问题，非常有建设性，分享给大家？探讨feed-forward GS在自驾场景落地的难点目前在哪里？目前来看Feed-forward的相关方法在点云精度还是差一点的，尤其是ff的方法在私有数据的域上精度不稳定。前馈方法的前景是广阔的，毕竟克服了per scene优化的弊端，值得持续尝试预研和落地。关于3DGS相关的技术栈，很多同学想入门却苦于没有有效的学习路线图：既要吃透点云处理、深度学习等理论，又要掌握实时渲染、代码实战。为此自动驾驶之心联合工业界算法专家开展了这门《3DGS理论与算法实战教程》！我们花了两个月的时间设计了一套3DGS的学习路线图，从原理到实战细致展开。全面吃透 3DGS技术栈。第二章则正式进入到3DGS的原理和算法部分。整体上第二章的设计思路是带大家先打好基础，先详细梳理3DGS的原理部分及核心伪代码，接着讲解动态重建、表面重建、鱼眼重建和光线追踪的经典文章和最新的算法，由点及面层层深入。实战我们选取了英伟达开源的3DGRUT框架，适合 ...

Feed-forward GS

Feed-forward GS

Meta「分割一切」进入3D时代！图像分割结果直出3D，有遮挡也能复原

量子位· 2025-11-20 15:01

文章核心观点 - Meta AI发布SAM 3D模型，能够从单张2D图像直接生成精细的3D模型，代表了3D建模领域的新范式[1][4][7] - 同时发布的SAM 3模型在图像分割基础上增强了语义理解能力，支持通过文本或示例提示进行开放词汇的概念分割[5][6][23] - 两个模型系列在各自领域的多项基准测试中均取得了显著优于现有方法的性能，达到SOTA水平[13][17][36] SAM 3D模型技术特点与性能 - SAM 3D包含两个专用模型：SAM 3D Objects用于物体和场景重建，SAM 3D Body专注于人体建模[8] - SAM 3D Objects能够处理小物体、间接视角和遮挡等复杂情况，从单张自然图像实现3D重建和物体姿态估计[10][11] - 在人类用户对比测试中，SAM 3D Objects的胜率至少达到其他领先模型的5倍[14] - 具体性能指标显示显著优势：F1分数达0.2339，Chamfer距离为0.0408，3D IoU为0.4254，ADD-S@0.1为0.7232[15] - SAM 3D Body在复杂情况下表现优异，MPJPE指标为61.7，PVE为60.3，在多个数据集上的PCK指标分别为68.0和75.4[18] SAM 3模型技术突破 - 突破传统分割模型固定标签集的限制，引入可提示概念分割功能，支持通过文本或示例提示定义概念[21][23][24] - 能够处理细微概念如"红色条纹伞"，并通过文本指令或选中示例物体来查找分割所有同类物体[22][26][31] - 在LVIS数据集的零样本分割任务中准确率达到47.0，比此前SOTA的38.5提升显著[37] - 在新的SA-Co基准测试中，表现至少比基线方法强2倍[38] - 在视频分割任务中性能优于SAM 2，在多个数据集上的J&F指标达到78.4至89.6[40] 模型架构与实现方法 - SAM 3基于共享的Perception Encoder视觉骨干网络，服务检测器和追踪器模块[41][43] - 创新设计Presence Head解决开放词汇检测中的幻觉问题，解耦识别与定位任务[45] - SAM 3D Objects采用两阶段生成模型：12亿参数流匹配Transformer构建几何，稀疏潜在流匹配细化纹理[48][49][51] - 通过model-in-the-loop数据引擎低成本获取图像-3D配对数据，人类从8个候选中选择最佳匹配[53][54] - SAM 3D Body采用Momentum Human Rig表示法，双路解码器设计分别处理全身和手部细节[55][57][61] 行业影响与数据集 - Meta与艺术家合作构建SAM 3D艺术家物体数据集SA-3DAO，用于评估物理世界图像三维重建能力[20] - 创建SA-Co基准测试评估大词汇量检测和分割性能，要求识别更大概念词汇量[33][34] - 模型能够很好泛化到多种类型图像，支持密集场景重建，标志着基础模型具身化的进展[13][60]

Meta Platforms(US:META)

Artificial Intelligence

Artificial Intelligence

高德如何助力文博业“打破无限”？

21世纪经济报道· 2025-09-30 19:56

行业背景与政策导向 - 文物保护面临长期挑战，文物数字化成为明确的发展方向 [1] - 2021年九部委在《关于推进博物馆改革发展的指导意见》中明确提出加快藏品数字化和完善藏品数据库 [1] - 各地正积极推动文物保护与利用的智慧化、数字化转型，以数字化展示带动博物馆提质升级 [1] 文博数字化面临的挑战 - 行业长期存在难以逾越的障碍，包括藏品体量庞大、文物脆弱、采集窗口受限 [5] - 传统三维建模依赖手工、周期长、成本高，且需满足严苛的安全与合规要求 [5] - 文旅热潮下出现新矛盾，如线下限流与线上引流的运营错配，以及算力与存储的刚性投入 [5] - 具体表现为三大痛点：物理可达性受限、大规模数字化瓶颈突出、运营压力长期存在 [5] 公司的技术方案与产品 - 公司以三维重建与导航能力切入文博数字化，并计划推出"线上博物馆"工具包以降低制作与上线门槛 [3] - 基于"云境"三维重建技术融合海量时空数据，打造时空数字底座，旨在提升效率、压低成本 [6] - 公司推动文物从静态收藏向数字资产的动态管理转变，通过AI和三维重建技术实现文物活化 [8] - 云境平台升级后首次支持4DGS技术，完成从静态重建到动态三维重建的跨越，并适配国产GPU实现渲染引擎国产化 [9] - 公司专注于真实世界的还原与基础设施供给，以"一张文博地图"为目标，不延伸至内容经营 [13] 公司的标杆项目与合作生态 - 2024年8月，公司与故宫宣布共建"故宫×高德AI三维重建创新实验室"，聚焦复杂环境下的数据采集难题 [8] - 该实验室以故宫雨花阁、内务府造办处考古遗址等为主体，旨在规范数字文物模型生产工艺标准 [8] - 公司已形成文旅文博的产学研生态，与北航、北邮、央美等院校及头部博物馆开展合作 [12] - 公司与故宫合作的科技部重大专项《大型综合性博物馆数字孪生关键技术研究与服务示范》正在推进，旨在提供可复制的创新范例 [11] 公司的竞争优势与市场定位 - 公司定义其赛道为"打破无限"，旨在用AI、数字孪生与生态合作打破时间、空间与维度的限制 [3] - 中国在大模型应用上迭代速度快，叠加超大规模用户体量带来的数据与场景优势，形成高频的真实世界反馈回路 [10] - 公司具备独特优势：大众UGC基础雄厚、公众表达意愿强，以及权威机构提供的严肃内容供给充足 [10] - 公司形成"线上展陈—线下导流—客流预测与疏导"的运营闭环，走出一条国产化、低成本、可复制的落地路径 [13] 应用案例与社会价值 - 以湖南博物院线上展厅为例，平台集成官方权威内容并开放社会创作入口，引入专业化表达提升公众参与度 [11] - 在安徽宣城郎溪县，文物工作人员使用公司地图对文物点精准定位与标注，整合分散的工作链路，提升普查效率与日常运维便利性 [13][14] - 公司结合大数据与AI技术推动智慧服务，设想通过数字孪生、三维激光扫描、AR/VR等技术打造沉浸式数字展厅，实现文化传播破圈 [9]

文物数字化

时空大模型

高德云境平台

文物数字化

时空大模型

高德云境平台

世界机器人大会引爆3D视觉革命，空间智能成焦点~

自动驾驶之心· 2025-08-11 13:45

三维感知技术趋势 - 全球首款千元级空间记忆模组MindPalace Odin1亮相，可实时生成三维点云模型，融合多模态传感器与自研MindSLAM算法 [2] - 第三代多维触觉传感器PX-6AX-GEN3实现每秒百万次采样频率，输出15维力觉数据 [2] - 3D激光雷达Pulsar ME450与双目相机Gemini 345Lg具备超宽温域和抗干扰性能 [2] - 三维重建技术正从实验室走向千行百业，成为机器人感知世界的新基建 [2] 激光扫描技术突破 - D-H100手持激光扫描仪实现120米超远距厘米级精度扫描，搭载LiDAR SLAM与双频GNSS天线 [4] - 设备重量仅1.83kg，效率提升300%，可在复杂环境中实时输出高精度点云 [4] - 激光扫描技术正与机器人深度绑定，可应用于灾区数字孪生、化工厂巡检、咖啡机器人路径优化等场景 [4][5] GeoScan S1产品亮点 - 国内最强性价比实景三维激光扫描仪，首发价19800元起 [7][14] - 每秒20万级点云成图，70米测量距离，360°全域覆盖，支持20万平米以上大场景 [7] - 轻量化设计仅1.9kg（含电池），续航3-4小时，配备5.5寸触控屏 [25] - 多传感器融合包括RTK、3D激光雷达、9DOF IMU、双广角相机等 [18] 技术参数 - 相对精度优于3cm，绝对精度优于5cm [25] - 采用Intel N5095处理器，4核2.0GHz，16G内存/256G存储 [25] - 支持pcd、las、ply等多种数据格式导出 [25] - 微秒级同步技术实现多传感器数据融合 [33][34] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂环境 [39][48] - 支持跨平台集成，适配无人机、无人车、机械狗、人形机器人等多种负载平台 [45] - 3D高斯模块可选配，实现高保真实景还原 [52] 产品版本 - 基础版19800元，深度相机版23800元 [60] - 3DGS在线版39800元（含云服务），离线版67800元 [60] - 提供1年售后服务 [65]

GeoScan S1三维激光扫描仪

Pulsar ME450 3D激光雷达

Gemini 345Lg双目相机

GeoScan S1三维激光扫描仪

Pulsar ME450 3D激光雷达

Gemini 345Lg双目相机

自动驾驶之心项目与论文辅导来了~

自动驾驶之心· 2025-08-07 20:00

自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务旨在解决学生在研究过程中遇到的环境配置创新点实现模型调试等疑难问题 [1] - 过往辅导成果显著部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模目标助力更多学员冲击顶会 [1] 主要辅导方向方向1：多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇总引用量超6000次 [3] - 学术指导经验丰富曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2：3D视觉技术 - 聚焦图像/点云数据的3D目标检测语义分割占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校在ECCV CVPR等会议有多次论文发表记录 [5] 方向3：自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发成员均来自国内TOP2高校在CVPR ECCV等会议有论文发表 [6] 方向4：神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文（含2篇CVPR和2篇IEEE Trans） [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文学术背景覆盖国内外顶尖高校（QS200/国内TOP100） [7] 合作方式 - 提供个性化论文辅导服务具体细节需通过指定微信号（wenyirumo）咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]

多模态感知

计算机视觉

多模态感知

计算机视觉

再见伪影！港大开源GS-SDF：SDF做高斯初始化还能这么稳~

自动驾驶之心· 2025-07-24 14:46

技术方案 - 提出统一的激光雷达-视觉系统，结合三维高斯喷溅（3DGS）与神经有符号距离场（NSDF），实现几何一致的真实感渲染与高精度表面重建 [5][6] - 通过NSDF提供的流形几何场进行高斯原语初始化，提升训练收敛性并减少悬浮伪影 [22][23] - 设计双向监督的形状正则化方法，在NSDF与高斯喷溅之间建立几何约束，优化渲染与重建效果 [6][28][33] 核心创新点 - 基于物理的高斯初始化策略，利用NSDF提取表面网格顶点作为初始位置，并通过SDF值定义不透明度 [23][24] - 针对背景渲染的"天空初始化"方案，在大球面上均匀布置高斯以避免前景伪影 [25] - 结合渲染法线一致性损失与SDF表面采样点约束的双重几何正则化框架 [30][33] 性能表现 - 在Replica数据集上平均表面重建精度达0.506cm（C-L1指标），优于M2Mapping的0.499cm [46] - 外推渲染SSIM达0.955，显著高于3DGS（0.914）和InstantNGP（0.944） [46] - FAST-LIVO2数据集测试中，平均PSNR达26.988，较基准方法提升1.5dB以上 [49] 应用场景 - 适用于机器人导航、数字孪生等需要实时高质量三维重建的领域 [1] - 支持低成本激光雷达与相机组合的硬件方案，降低部署门槛 [5][48] - 在稀疏观测条件下仍能保持几何一致性，适应复杂环境 [3][6] 实现细节 - 采用哈希编码+MLP构建可扩展的NSDF网络，通过Eikonal正则化保证梯度稳定性 [16][20] - 渲染阶段使用alpha混合的光栅化方法，结合L1+DSSIM损失优化颜色输出 [13][14] - 高斯属性参数化包含位置、切向量、缩放因子、不透明度及球谐函数编码颜色 [10][11]

真实感渲染

几何正则化

3D Visualization

神经辐射场（NeRF）

真实感渲染

几何正则化

3D Visualization

神经辐射场（NeRF）

放榜了！ICCV 2025最新汇总（自驾/具身/3D视觉/LLM/CV等）

自动驾驶之心· 2025-06-28 21:34

自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏提升跨模态学习效果 [9]

图像与视觉

生成式模型

图像与视觉

生成式模型

新疆兵团八师：科技创新引领“戈壁明珠”新飞跃

中国新闻网· 2025-06-03 12:12

城市创新资源 - 石河子市拥有国家级经济技术开发区、国家高新技术产业开发区、国家农业科技园区三大发展引擎 [1] - 汇聚18所科研机构包括新疆农垦科学院、石河子农业科学研究院 [1] - 拥有12个国家级"双创"平台、31个省级以上重点实验室和技术创新中心 [1] - 成立石河子科技成果转移转化中心和北疆兵团区域科技创新联盟 [1] 科技创新成果 - 高新技术企业113家、科技型中小企业174家 [2] - 获国家科学技术进步奖二等奖6项、省级科学技术进步奖100余项 [2] - 天山铝业电解铝年产量突破百万吨 [2] - 众金电极箔创新成果推广至数十家企业创造综合效益数十亿元 [2] 绿色能源与农业科技 - 中新建电力集团光伏项目年提供绿色电力1.5亿千瓦时减少碳排放7.8万吨 [2] - 天业集团智能打顶机器人融合三维重建和AI技术 [3] - 自主研发"暗管排水控盐"技术解决盐碱地种植难题 [3] - 节水灌溉技术和大数据平台提升农业生产效率 [3] 政策支持与产业集群 - 出台"科技创新十条"对科技成果转化项目最高奖励500万元 [3] - 设立10亿元产业基金支持龙头企业发展 [3] - 经开区修订政策加大人才引育力度设立"人才发展专项资金" [3] - 以六大产业集群为基石推动高质量发展 [3]

大数据平台

大数据平台