Workflow
3D重建
icon
搜索文档
首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
36氪· 2025-10-31 16:28
人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这"两者兼得"一直是巨大挑战。 传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言模型 (VLM)"锁死" ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 。 现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下 文理解融为一体。 为解决上述问题,本研究的主要贡献在于: 端到端统一框架: InsScene-15K数据集的构建 InsScene-15K 数据集是通过一个新颖的数据管理流程构建的 ,该流程由 SAM2 驱动 ,并整合了三种不同来源的数据,每种来源的处理方式不同。 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。 大规模实例数据集: 构建了一个全新的大规模数据集 InsScene-1 ...
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
iGGT团队 投稿 量子位 | 公众号 QbitAI 人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这"两者兼得"一直是巨大挑战。 传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言 模型(VLM)"锁死" ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空 间重建与实例级上下文理解融为一体。 为解决上述问题,本研究的主要贡献在于: 端到端统一框架: 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。 大规模实例数据集: 构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景 、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例 级掩码 。 实例解耦与即插即用: 首创"实例接地的 ...
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒
量子位· 2025-10-22 17:12
产品核心升级 - 腾讯发布并开源混元世界模型1.1 (WorldMirror),这是真正统一的端到端3D重建基座大模型 [1] - 新模型是继今年7月发布的混元世界模型1.0后,腾讯的又一次世界模型大升级 [15] - 混元世界模型1.1突破了1.0版本的局限,使用户能够上传多视图或者视频来生成3D场景 [37] 技术突破与行业地位 - 该模型是业界首个统一(any-to-any)的前馈式(feedforward) 3D重建大模型 [4] - 首次支持用户从多视图或视频中一键生成3D世界,并能在单卡、秒级推理下完成高精度重建 [3] - 实现了业界首次统一的多任务输出(点云、深度、相机、表面法线和新视角合成),并均取得SOTA表现 [21] 性能表现对比 - 在3D点云重建任务中,混元世界模型1.1生成表面更平整,场景更规整,优于Meta的最新开源模型MapAnything [9][11] - 在端到端3D高斯重建任务中,几何精度和细节还原全面超越AnySplat模型,场景重建更稳定真实 [12][14] - 模型采用纯前馈架构,处理典型8-32视图输入耗时仅需1秒钟,远快于需要迭代优化数分钟甚至数小时的传统方法 [22] 核心功能特性 - 支持灵活注入多模态先验(相机位姿、相机内参、深度图),通过动态先验注入机制能适应任意先验组合 [18][20] - 采用端到端多任务协同训练,各任务相互强化,提升整体几何一致性 [21] - 基于完全Transformer骨干,使用DPT头进行密集预测,并通过可微光栅化器进行监督 [30][31] 应用场景与效果 - 支持动画风格虚拟场景、中华风场景、真实航拍场景及科幻漫画等多种风格的高精度重建 [5][6][7] - 通过多模态先验融合、通用几何预测和前馈高效推理的结合,将3D重建从专业工具转变为人人可用的技术 [37] - 项目已完全开源,开发者可克隆GitHub仓库一键部署,普通用户也可通过Hugging Face在线体验 [34]
哈工大&理想PAGS:自驾闭环仿真新SOTA!
自动驾驶之心· 2025-10-18 00:04
研究背景与核心问题 - 动态大规模城市环境的3D重建是自动驾驶系统的核心基础,支撑仿真测试、合成数据生成、数字孪生等关键应用 [1] - 现有主流方法(如StreetGS、DrivingGaussian)采用“均匀优化”范式,存在语义无关的资源分配瓶颈,无法区分对驾驶安全关键的元素(如行人、车辆)与非关键元素(如远处建筑、路边植被) [1] - 资源错配导致计算资源大量浪费在非关键元素上,而关键物体的高频细节因资源不足被平滑或模糊,陷入保真度与计算成本不可兼得的困境 [1] 核心方法设计 - PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”,核心包含组合高斯场景表示、语义引导资源分配、优先级驱动的渲染pipeline三大模块 [4] - 组合高斯场景表示对场景进行静动态分离建模,静态背景用固定在世界坐标系的3D高斯集合表示,动态物体在独立局部坐标系内建模 [4] - 语义引导资源分配通过离线语义场景分解将元素划分为关键类(车辆、行人、骑行者)和非关键类(建筑、道路、植被),并基于混合重要性度量进行高斯排序剪枝 [5][8] - 优先级驱动的渲染pipeline通过硬件加速的遮挡剔除,分为Occluder Depth Pre-Pass和Color Pass两个关键pass,实现实时渲染 [6][7][9] 实验验证与结果分析 - 在Waymo和KITTI数据集上的定量结果显示,PAGS在Waymo数据集上PSNR达34.63、SSIM达0.933,在KITTI数据集上PSNR达34.58、SSIM达0.947,均为最优 [13][17] - 训练效率显著提升,训练时间仅1小时22分钟(Waymo)和1小时31分钟(KITTI),远低于StreetGS的3小时以上和EmerNeRF的11小时以上 [13][17] - 渲染速度达到353 FPS(Waymo)和365 FPS(KITTI),是StreetGS(136 FPS)的2.6倍,EmerNeRF(0.23 FPS)的1500倍以上 [10][13][17] - 模型大小530 MB、显存占用6.1 GB,仅为EmerNeRF(1217 MB、10.5 GB)的约1/2,更适配车载硬件资源约束 [10][17] 研究结论与行业意义 - PAGS通过语义引导的资源分配与优先级驱动的渲染加速,打破了动态驾驶场景3D重建中保真度与效率的固有权衡 [22][23] - 该方法能以更短训练时间、更低硬件开销实现更高质量的关键物体重建,为3D高斯泼溅技术在自动驾驶中的实用部署提供了核心技术支撑 [23] - 消融实验证明混合重要性度量(α=0.4)同时实现最高整体PSNR(34.63)与关键物体PSNR(35.97),优于单纯的梯度或语义策略 [20][22]
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
机器之心· 2025-08-19 17:45
3DGS技术研究进展 - 3DGS技术在新视角合成与3D重建中实现实时照片级真实感渲染,但现有方法在建模含动态物体场景时精度不足,常导致渲染图像出现伪影[2] - 研究者提出RobustSplat解决方案,其核心设计包含延迟高斯生长策略和尺度级联掩码引导方法,前者优先优化静态场景结构,后者通过低分辨率特征相似度监督实现可靠初始动态掩码估计[2] 研究动机与方法 - 高斯致密化在3DGS中具有双重作用,既能增强场景细节表达,也会促使模型过早拟合动态区域导致伪影[6] - 研究动机源于通过调节致密化过程引入时机,平衡静态结构表达与动态干扰抑制,提出延迟高斯生长策略[8] - 采用含两层线性层的MLP作为网络架构,以DINOv2特征为输入输出瞬态掩码,因其在语义一致性和抗噪性方面表现优异[9][10] 技术实现细节 - 掩码MLP优化结合图像残差损失和特征余弦相似度损失,前者捕捉像素级动态干扰,后者增强语义级动态区域识别[12] - 延迟高斯生长策略推迟高斯致密化过程,优先完成静态场景结构优化,并通过掩码正则化减少静态区域误分类风险[13] - 尺度级联掩码引导先利用低分辨率特征相似性监督进行初始瞬态掩码估计,再过渡到高分辨率监督实现更精确预测[14] 实验结果 - 在NeRF On-the-go和RobustNeRF数据集上,RobustSplat在PSNR、SSIM、LPIPS等指标上全面领先基线方法[16] - 具体数据表现:在Android场景PSNR达24.62,SSIM 0.831;Crab2场景PSNR 34.88,SSIM 0.940;Yoda场景PSNR 35.14,SSIM 0.944[17] - 平均表现PSNR 29.36,SSIM 0.895,优于3DGS的26.21/0.864和WildGaussians的27.07/0.876[17] 研究总结 - 高斯致密化过程虽提升场景细节捕捉能力,但会生成额外高斯建模瞬态干扰,导致渲染伪影[19] - RobustSplat通过延迟高斯生长和尺度级联掩码引导有效减少瞬态物体导致的渲染伪影,在复杂场景中实现鲁棒且细节丰富的3D重建[21]
随手拍照片就能VR云旅游!无位姿、稀疏图像条件下实现稳定3D重建和新视角合成|港科广
量子位· 2025-07-31 12:23
3D重建技术突破 - 新算法RegGS可将零散2D图片拼接成厘米级精度的3D数字模型 效果可直接用于VR云旅游场景 [1][2] - 传统NeRF方法计算代价高且难以收敛 NoPose类前馈模型仅能处理极少图片 无法适应大规模场景 [3] - RegGS通过局部3D高斯表示注册与融合 解决了优化方法不鲁棒与前馈方法不灵活的核心矛盾 [4] 技术实现机制 - 采用高斯混合模型结构配准机制 避免依赖SfM初始化 适应图像输入数量少的现实环境 [6][8] - 引入熵正则化Mixture Wasserstein-2距离作为高斯分布对齐度量 在Sim(3)空间联合优化尺度/旋转/平移 [12] - 融合MW2距离/颜色一致性/深度一致性 构建由粗到细的3DGS配准模块 [12] 性能验证与应用场景 - 在RE10K和ACID数据集测试中 PSNR/SSIM/LPIPS指标全面领先主流方法 支持2×至32×不同输入帧数 [9] - 适用于UGC视频3D化 无人机航拍建图 历史图像还原等场景 对非结构化输入更具可行性 [13] - 相比传统SfM或Bundle Adjustment方法 不依赖全局可视性与特征匹配 结构性要求更低 [13] 技术局限性 - 当前性能受限于上游前馈模型生成质量 MW_2距离计算带来额外开销 [13]
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
量子位· 2025-06-03 12:26
核心技术Forge渲染器 - Forge是一款Web端3D高斯泼溅渲染器,无缝集成three.js,实现完全动态和可编程的高斯泼溅渲染 [2] - 底层为GPU优化设计,地位相当于传统3D图形领域的基础组件"着色器" [3] - 支持多splat对象、多摄像头及实时动画/编辑,仅需极少代码即可启动 [4] 技术突破与行业定位 - 解决3D高斯溅射(3DGS)在传统渲染引擎中的兼容性问题,克服现有网络库的单对象限制、遮挡错误等缺陷 [7] - 采用类似现代着色器系统的可编程架构(Dyno函数块),支持程序化生成、修改Splat并转换为GLSL在GPU运行 [11][16] - 通过ForgeRenderer和高效bucket sort算法实现实时排序(画家算法),支持多视角同步渲染及用户可编程数据流水线 [13][14][15] 应用场景与战略规划 - 目标将多模态AI从二维提升至三维世界,2025年推出首款产品,覆盖游戏开发、影视制作等专业领域 [17] - 当前Forge定位为开发者工具组件,未来将扩展为面向艺术家、设计师的专业工具生态 [18] 技术评价与行业影响 - 联创Ben Mildenhall评价该技术"使开发者处理AI生成3D世界如同操作三角形网格" [5] - 3D高斯溅射已成为生成式AI和3D重建主流方案,Forge通过实时交互能力推动技术落地 [6][12]
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
证券日报· 2025-04-09 16:40
文章核心观点 美图公司旗下美图影像研究院联合多所高校的七项研发成果入选顶级学术会议,聚焦图像编辑领域,多项技术已落地应用,公司在核心视觉领域竞争力提升,未来增长潜力值得期待 [2][4] 研发成果入选情况 - 五项研发成果入选IEEE国际计算机视觉与模式识别会议CVPR 2025,投稿超13000篇,录用比例22.1% [2] - 两项研发成果入选国际人工智能促进协会主办的顶级学术会议AAAI 2025,收到12957篇有效投稿,录取率23.4% [2] 研发成果领域分布 - 三项生成式AI技术成果、三项分割技术成果和一项3D重建技术成果 [2] 技术成果落地应用 - 生成式AI技术GlyphMastero落地美图秀秀无痕改字功能 [3] - 生成式AI技术MTADiffusion落地AI素材生成器WHEE [3] - 生成式AI技术StyO落地美图秀秀AI创意和美颜相机AI玩法 [4] - 三项分割领域技术突破应用于电商设计、图像编辑与处理、人像美化等场景 [4] - 3D重建成果EVPGS在新视角生成、增强现实、3D内容生成、虚拟数字人等领域应用需求激增 [4] 公司发展情况 - 基于长期储备的AI能力,深度结合前沿技术,打造多款行业领先的影像与设计AI应用 [4] - 核心视觉领域竞争力持续提升,驱动旗下产品能力迭代,带动用户粘性和付费意愿提升 [4]