Workflow
3D重建
icon
搜索文档
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新,将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能,并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台,方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型:SAM 3D Objects支持物体与场景重建,SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计,生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎,通过标注近100万张图像生成约314万个3D网格,突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR,构建于Transformer架构,使用包含约800万张图像的数据集训练,能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力,能根据文本或图像提示找到并分割某个概念的所有实例,克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上,检测模块基于DETR,跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升,将cgF1分数提升两倍,优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高,在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒,视频中多目标情况下仍可保持近实时表现[44]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 13:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
36氪· 2025-10-31 16:28
技术突破与核心创新 - 提出IGGT,一个创新的端到端大型统一Transformer,首次将3D空间重建与实例级上下文理解融为一体,解决了传统方法将两者割裂处理导致的错误累积和泛化能力差的问题 [1] - 首创“实例接地的场景理解”范式,使模型不与任何特定视觉语言模型绑定,而是生成实例掩码作为桥梁,实现与任意VLMs和LMMs的即插即用式集成 [3] - 该统一表示是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,极大地扩展了下游能力 [4] 模型架构与关键技术 - IGGT架构由三部分构成:使用预训练DINOv2提取图像块级Token的统一Transformer、进行intra-view self-attention和global-view cross-attention的24个注意力模块、以及并行的几何头与实例头双解码头 [11][13] - 设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,显著增强实例特征的空间感知能力 [18] - 采用多视角对比损失Lmvc,在特征空间中拉近不同视角但属同一3D实例的像素特征,同时推开不同实例的特征,使模型从2D输入学到3D一致实例特征 [14] 数据集构建 - 构建全新大规模数据集InsScene-15K,包含15,000个场景、2亿张图像,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 [2] - 数据集整合三种来源数据:合成数据直接使用模拟生成的完美准确掩码;真实世界视频数据通过定制化SAM2视频密集预测管线确保时间一致性;真实世界RGBD数据通过掩码优化流程提升2D掩码质量并保持3D ID一致性 [8][9][10] 性能表现与应用 - 在实例3D跟踪任务上,IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能成功跟踪物体消失又重新出现的模型 [16] - 支持三大应用:实例空间跟踪可在多视角图像中密集跟踪分割特定对象实例;开放词汇语义分割可利用实例掩码作为提示接入任意VLM实现类别分配;QA场景定位可与LMM交互执行以对象为中心的复杂问答任务 [19] - 在2D/3D开放词汇分割任务上,得益于实例接地范式特性,可无缝接入最新视觉语言模型提升查询性能 [22]
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
核心观点 - 提出IGGT模型,首次将3D空间重建与实例级上下文理解融合于一个端到端的统一Transformer框架中,解决了传统方法将两者割裂处理的问题 [1] - 首创“实例接地的场景理解”范式,通过生成实例掩码作为桥梁,实现与任意视觉语言模型和大语言模型的即插即用式集成,突破了以往模型与特定VLM锁死的限制 [2] - 该模型是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,在多项任务指标上大幅领先已有方法 [2][19] 技术架构与创新 - **统一Transformer框架**:模型使用预训练的DINOv2提取图像块级Token,通过24个注意力模块进行视图内自注意力和全局视图交叉注意力,编码为强大的统一Token表示 [14] - **双解码头设计**:统一Token被送入两个并行解码器——几何头负责预测相机参数、深度图和点图,实例头采用DPT-like架构解码出实例特征 [12][17] - **跨模态融合**:设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,增强实例特征的空间感知能力 [17] - **3D一致性对比监督**:设计多视角对比损失,在特征空间中拉近同一3D实例在不同视角的像素特征,推开不同实例的特征,从而仅从2D输入学到3D一致的实例特征 [15] 数据集构建 - **InsScene-15K数据集**:构建包含15K个场景、2亿张图像的大规模数据集,并通过新颖数据管线标注高质量、3D一致的实例级掩码 [2][5] - **合成数据处理**:在模拟环境中直接生成RGB图像、深度图、相机位姿和物体级分割掩码,由于掩码完美准确而无需后处理 [8] - **真实世界视频处理**:使用定制化SAM2视频密集预测管线,通过初始掩码提议、时间上前向传播、迭代添加关键帧和双向传播,确保视频序列高度时间一致性 [9] - **真实世界RGBD处理**:通过掩码优化流程,将SAM2生成的精细掩码与投影的粗糙GT掩码对齐,为精细掩码分配正确的多视图一致ID,提升2D掩码质量 [10] 应用能力与性能 - **空间跟踪能力**:IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能够成功跟踪物体消失又重新出现的模型 [19] - **开放词汇分割**:在2D开放词汇分割任务上达到60.46% mIoU和81.84% mAcc,在3D任务上达到39.68% mIoU,大幅领先对比方法 [19] - **场景问答定位**:利用实例掩码构建视觉提示,接入大型多模态模型实现针对场景中特定物体的复杂问答任务 [23][30] - **多任务支持**:模型同时支持实例空间跟踪、开放词汇语义分割和QA场景定位三大类应用 [23]
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒
量子位· 2025-10-22 17:12
产品核心升级 - 腾讯发布并开源混元世界模型1.1 (WorldMirror),这是真正统一的端到端3D重建基座大模型 [1] - 新模型是继今年7月发布的混元世界模型1.0后,腾讯的又一次世界模型大升级 [15] - 混元世界模型1.1突破了1.0版本的局限,使用户能够上传多视图或者视频来生成3D场景 [37] 技术突破与行业地位 - 该模型是业界首个统一(any-to-any)的前馈式(feedforward) 3D重建大模型 [4] - 首次支持用户从多视图或视频中一键生成3D世界,并能在单卡、秒级推理下完成高精度重建 [3] - 实现了业界首次统一的多任务输出(点云、深度、相机、表面法线和新视角合成),并均取得SOTA表现 [21] 性能表现对比 - 在3D点云重建任务中,混元世界模型1.1生成表面更平整,场景更规整,优于Meta的最新开源模型MapAnything [9][11] - 在端到端3D高斯重建任务中,几何精度和细节还原全面超越AnySplat模型,场景重建更稳定真实 [12][14] - 模型采用纯前馈架构,处理典型8-32视图输入耗时仅需1秒钟,远快于需要迭代优化数分钟甚至数小时的传统方法 [22] 核心功能特性 - 支持灵活注入多模态先验(相机位姿、相机内参、深度图),通过动态先验注入机制能适应任意先验组合 [18][20] - 采用端到端多任务协同训练,各任务相互强化,提升整体几何一致性 [21] - 基于完全Transformer骨干,使用DPT头进行密集预测,并通过可微光栅化器进行监督 [30][31] 应用场景与效果 - 支持动画风格虚拟场景、中华风场景、真实航拍场景及科幻漫画等多种风格的高精度重建 [5][6][7] - 通过多模态先验融合、通用几何预测和前馈高效推理的结合,将3D重建从专业工具转变为人人可用的技术 [37] - 项目已完全开源,开发者可克隆GitHub仓库一键部署,普通用户也可通过Hugging Face在线体验 [34]
哈工大&理想PAGS:自驾闭环仿真新SOTA!
自动驾驶之心· 2025-10-18 00:04
研究背景与核心问题 - 动态大规模城市环境的3D重建是自动驾驶系统的核心基础,支撑仿真测试、合成数据生成、数字孪生等关键应用 [1] - 现有主流方法(如StreetGS、DrivingGaussian)采用“均匀优化”范式,存在语义无关的资源分配瓶颈,无法区分对驾驶安全关键的元素(如行人、车辆)与非关键元素(如远处建筑、路边植被) [1] - 资源错配导致计算资源大量浪费在非关键元素上,而关键物体的高频细节因资源不足被平滑或模糊,陷入保真度与计算成本不可兼得的困境 [1] 核心方法设计 - PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”,核心包含组合高斯场景表示、语义引导资源分配、优先级驱动的渲染pipeline三大模块 [4] - 组合高斯场景表示对场景进行静动态分离建模,静态背景用固定在世界坐标系的3D高斯集合表示,动态物体在独立局部坐标系内建模 [4] - 语义引导资源分配通过离线语义场景分解将元素划分为关键类(车辆、行人、骑行者)和非关键类(建筑、道路、植被),并基于混合重要性度量进行高斯排序剪枝 [5][8] - 优先级驱动的渲染pipeline通过硬件加速的遮挡剔除,分为Occluder Depth Pre-Pass和Color Pass两个关键pass,实现实时渲染 [6][7][9] 实验验证与结果分析 - 在Waymo和KITTI数据集上的定量结果显示,PAGS在Waymo数据集上PSNR达34.63、SSIM达0.933,在KITTI数据集上PSNR达34.58、SSIM达0.947,均为最优 [13][17] - 训练效率显著提升,训练时间仅1小时22分钟(Waymo)和1小时31分钟(KITTI),远低于StreetGS的3小时以上和EmerNeRF的11小时以上 [13][17] - 渲染速度达到353 FPS(Waymo)和365 FPS(KITTI),是StreetGS(136 FPS)的2.6倍,EmerNeRF(0.23 FPS)的1500倍以上 [10][13][17] - 模型大小530 MB、显存占用6.1 GB,仅为EmerNeRF(1217 MB、10.5 GB)的约1/2,更适配车载硬件资源约束 [10][17] 研究结论与行业意义 - PAGS通过语义引导的资源分配与优先级驱动的渲染加速,打破了动态驾驶场景3D重建中保真度与效率的固有权衡 [22][23] - 该方法能以更短训练时间、更低硬件开销实现更高质量的关键物体重建,为3D高斯泼溅技术在自动驾驶中的实用部署提供了核心技术支撑 [23] - 消融实验证明混合重要性度量(α=0.4)同时实现最高整体PSNR(34.63)与关键物体PSNR(35.97),优于单纯的梯度或语义策略 [20][22]
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
机器之心· 2025-08-19 17:45
3DGS技术研究进展 - 3DGS技术在新视角合成与3D重建中实现实时照片级真实感渲染,但现有方法在建模含动态物体场景时精度不足,常导致渲染图像出现伪影[2] - 研究者提出RobustSplat解决方案,其核心设计包含延迟高斯生长策略和尺度级联掩码引导方法,前者优先优化静态场景结构,后者通过低分辨率特征相似度监督实现可靠初始动态掩码估计[2] 研究动机与方法 - 高斯致密化在3DGS中具有双重作用,既能增强场景细节表达,也会促使模型过早拟合动态区域导致伪影[6] - 研究动机源于通过调节致密化过程引入时机,平衡静态结构表达与动态干扰抑制,提出延迟高斯生长策略[8] - 采用含两层线性层的MLP作为网络架构,以DINOv2特征为输入输出瞬态掩码,因其在语义一致性和抗噪性方面表现优异[9][10] 技术实现细节 - 掩码MLP优化结合图像残差损失和特征余弦相似度损失,前者捕捉像素级动态干扰,后者增强语义级动态区域识别[12] - 延迟高斯生长策略推迟高斯致密化过程,优先完成静态场景结构优化,并通过掩码正则化减少静态区域误分类风险[13] - 尺度级联掩码引导先利用低分辨率特征相似性监督进行初始瞬态掩码估计,再过渡到高分辨率监督实现更精确预测[14] 实验结果 - 在NeRF On-the-go和RobustNeRF数据集上,RobustSplat在PSNR、SSIM、LPIPS等指标上全面领先基线方法[16] - 具体数据表现:在Android场景PSNR达24.62,SSIM 0.831;Crab2场景PSNR 34.88,SSIM 0.940;Yoda场景PSNR 35.14,SSIM 0.944[17] - 平均表现PSNR 29.36,SSIM 0.895,优于3DGS的26.21/0.864和WildGaussians的27.07/0.876[17] 研究总结 - 高斯致密化过程虽提升场景细节捕捉能力,但会生成额外高斯建模瞬态干扰,导致渲染伪影[19] - RobustSplat通过延迟高斯生长和尺度级联掩码引导有效减少瞬态物体导致的渲染伪影,在复杂场景中实现鲁棒且细节丰富的3D重建[21]
随手拍照片就能VR云旅游!无位姿、稀疏图像条件下实现稳定3D重建和新视角合成|港科广
量子位· 2025-07-31 12:23
3D重建技术突破 - 新算法RegGS可将零散2D图片拼接成厘米级精度的3D数字模型 效果可直接用于VR云旅游场景 [1][2] - 传统NeRF方法计算代价高且难以收敛 NoPose类前馈模型仅能处理极少图片 无法适应大规模场景 [3] - RegGS通过局部3D高斯表示注册与融合 解决了优化方法不鲁棒与前馈方法不灵活的核心矛盾 [4] 技术实现机制 - 采用高斯混合模型结构配准机制 避免依赖SfM初始化 适应图像输入数量少的现实环境 [6][8] - 引入熵正则化Mixture Wasserstein-2距离作为高斯分布对齐度量 在Sim(3)空间联合优化尺度/旋转/平移 [12] - 融合MW2距离/颜色一致性/深度一致性 构建由粗到细的3DGS配准模块 [12] 性能验证与应用场景 - 在RE10K和ACID数据集测试中 PSNR/SSIM/LPIPS指标全面领先主流方法 支持2×至32×不同输入帧数 [9] - 适用于UGC视频3D化 无人机航拍建图 历史图像还原等场景 对非结构化输入更具可行性 [13] - 相比传统SfM或Bundle Adjustment方法 不依赖全局可视性与特征匹配 结构性要求更低 [13] 技术局限性 - 当前性能受限于上游前馈模型生成质量 MW_2距离计算带来额外开销 [13]
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
量子位· 2025-06-03 12:26
核心技术Forge渲染器 - Forge是一款Web端3D高斯泼溅渲染器,无缝集成three.js,实现完全动态和可编程的高斯泼溅渲染 [2] - 底层为GPU优化设计,地位相当于传统3D图形领域的基础组件"着色器" [3] - 支持多splat对象、多摄像头及实时动画/编辑,仅需极少代码即可启动 [4] 技术突破与行业定位 - 解决3D高斯溅射(3DGS)在传统渲染引擎中的兼容性问题,克服现有网络库的单对象限制、遮挡错误等缺陷 [7] - 采用类似现代着色器系统的可编程架构(Dyno函数块),支持程序化生成、修改Splat并转换为GLSL在GPU运行 [11][16] - 通过ForgeRenderer和高效bucket sort算法实现实时排序(画家算法),支持多视角同步渲染及用户可编程数据流水线 [13][14][15] 应用场景与战略规划 - 目标将多模态AI从二维提升至三维世界,2025年推出首款产品,覆盖游戏开发、影视制作等专业领域 [17] - 当前Forge定位为开发者工具组件,未来将扩展为面向艺术家、设计师的专业工具生态 [18] 技术评价与行业影响 - 联创Ben Mildenhall评价该技术"使开发者处理AI生成3D世界如同操作三角形网格" [5] - 3D高斯溅射已成为生成式AI和3D重建主流方案,Forge通过实时交互能力推动技术落地 [6][12]