Neural Radiance Fields (NeRF) - 财报，业绩电话会，研报，新闻

Neural Radiance Fields (NeRF)

搜索文档

机器之心· 2025-11-06 16:58

文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文，系统总结了2021至2025年间兴起的“前馈式3D”技术新范式，该范式旨在克服传统方法依赖“逐场景优化”导致的效率低下和泛化能力弱的问题，推动实时、通用的3D理解发展 [2] 五大代表性技术分支 - **条件式NeRF分支**：自PixelNeRF起，研究者探索让网络直接预测辐射场，发展出基于1D、2D和3D特征的方法 [7][12] - **点图模型分支**：由DUSt3R引领，直接在Transformer中预测像素对齐的3D点云，后续工作如MASt3R、Fast3R等提升了多视整合和长序列记忆能力 [9] - **3D高斯泼溅分支**：通过引入神经预测器实现直接输出高斯参数，包括基于图像的高斯图预测和基于体积的高斯表示两类方法 [10][13] - **网格/占据/SDF模型分支**：将传统几何建模思路与Transformer、Diffusion模型结合，如MeshFormer、InstantMesh等模型 [14][19] - **3D无关模型分支**：不依赖显式三维表示，直接学习从多视图到新视角的映射，包括基于回归的方法和基于生成扩散模型的方法 [14][19] 多样化任务与应用场景 - 应用方向涵盖无姿态重建与新视角合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿领域 [20] 基准数据集与评测指标 - 论文收录超过30个常用3D数据集，涵盖对象级、室内、室外、静态与动态场景，数据规模从7个场景到1,020万个对象不等，例如Objaverse-XL包含1,020万个合成对象，MVImgNet包含219,188个真实对象 [18][21] - 总结了包括PSNR/SSIM/LPIPS（图像质量）、Chamfer Distance（几何精度）、AUC/RTE/RRA（相机姿态）在内的标准指标体系 [18] 量化评测结果 - **相机姿态估计**：在Sintel数据集上，TT方法的绝对轨迹误差最低，为0.074；在RealEstate10K数据集上，VGGT和TT方法的相对姿态误差指标表现优异 [23] - **点图重建**：在7-Scenes数据集上，VGGT方法在点云精度和法向一致性上表现最佳，平均精度达0.087，平均法向一致性达0.787 [24] - **视频深度估计**：在尺度与偏移对齐条件下，TT方法在Sintel和KITTI数据集上的绝对相对误差分别低至0.210和0.037，δ<1.25的指标分别高达0.726和0.985 [25] - **单图新视角合成**：在Tanks-and-Temples数据集上，PE-Fields方法取得了最高的PSNR（22.12）和SSIM（0.732），以及最低的LPIPS（0.174） [26] 未来挑战与趋势 - 当前面临四大开放问题：多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [28][29] - 未来研究方向包括扩散Transformer与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及开发兼具生成和重建能力的前馈模型 [28]

Neural Radiance Fields (NeRF)

3D Gaussian Splatting (3DGS)

Neural Radiance Fields (NeRF)

3D Gaussian Splatting (3DGS)

Feed-Forward 3D综述：3D视觉进入“一步到位”时代

自动驾驶之心· 2025-11-01 00:03

文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文，系统总结了2021至2025年间快速前馈3D重建与视图合成领域的技术进展 [6] - 该领域正经历从传统的、依赖每个场景反复优化的范式，向基于AI的、具备泛化能力的快速前馈范式转变 [2] - 论文首次建立了完整的快速前馈3D方法谱系与时间线，并划分了五类主流架构 [6][8] 技术架构分类与演进 - **基于NeRF的模型**：从PixelNeRF开始，探索“条件式NeRF”，发展出1D、2D和3D特征方法三大技术分支 [8] - **点图模型**：由DUSt3R引领，直接在Transformer中预测像素对齐的3D点云，无需相机姿态输入 [10] - **3D高斯泼溅模型**：将场景表示为高斯点云，通过神经预测器直接输出高斯参数，分为基于图像和基于体积的表示方法 [11][13] - **网格/占用/SDF模型**：结合Transformer与Diffusion模型进行传统几何建模 [14] - **无3D表示模型**：直接学习从多视图到新视角的映射，不再依赖显式三维表示 [14] 多样化任务与应用场景 - 应用覆盖无姿态重建与视图合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿方向 [19] - 这些技术使得“从单张图像生成整个场景”成为可能，极大地拓展了3D技术的应用边界 [15] 基准数据集与评测体系 - 论文收录了超过30个常用3D数据集，涵盖对象级、室内、室外、静态与动态场景，数据规模庞大，例如Objaverse-XL包含10.2M个对象，MVImgNet包含219,188个对象 [20][21] - 总结了PSNR/SSIM/LPIPS（图像质量）、Chamfer Distance（几何精度）、AUC/RTE/RRA（相机姿态）等标准指标体系，为模型比较提供统一基线 [20] 量化性能对比 - 在相机姿态估计任务上，TT方法在Sintel数据集上的绝对轨迹误差低至0.074，在RealEstate10K数据集上的RRA@30指标达到99.99% [22] - 在点图重建任务上，VGGT方法在7-Scenes数据集上的精度均值为0.087，法向一致性中位数达到0.890 [23] - 在视频深度估计任务上，PE-Fields方法在Tanks-and-Temples数据集上的PSNR达到22.12，SSIM达到0.732，LPIPS低至0.174 [24] 未来挑战与发展趋势 - 当前面临四大开放问题：多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [25][26] - 未来趋势将聚焦于Diffusion Transformers与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及同时具备生成和重建能力的模型开发 [26]

Neural Radiance Fields (NeRF)

Neural Radiance Fields (NeRF)

聊聊自动驾驶闭环仿真和3DGS！

自动驾驶之心· 2025-07-22 20:46

神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆，这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示，利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性，例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示，将场景建模为基于点的背景和前景物体，每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观，前景点使用动态球面谐波模型，实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式，便于组合单独模型，支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点，每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量，避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观，并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云，点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似，但位置、旋转和外观模型不同，在物体局部坐标系中定义[11] - 引入4D球谐函数模型，用傅里叶变换系数替代SH系数，将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题，避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化，通过投影到图像平面获取颜色[17] - 对于物体模型，收集3D边界框内的聚合点并转换到局部坐标系，点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样，过滤不可见点，结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向，包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛，涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展，但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析，以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业，以及升学和求职经验分享[45][47]

Autonomous Driving Simulation

3D Scene Reconstruction

Autonomous Driving

3D Gaussian Splatting (3DGS)

Street Gaussians

Neural Radiance Fields (NeRF)

Autonomous Driving Simulation

3D Scene Reconstruction

Autonomous Driving

3D Gaussian Splatting (3DGS)

Street Gaussians

Neural Radiance Fields (NeRF)

李飞飞的世界模型，大厂在反向操作？

虎嗅· 2025-06-06 14:26

公司概况 - 李飞飞创办的World Labs专注于开发具备"空间智能"的下一代AI系统，探索AI对三维世界的理解与建模能力[2] - 公司在2024年成立后三个月内完成两轮融资，累计筹集2.3亿美元，估值突破10亿美元成为AI领域独角兽[3] - 投资方包括a16z、英伟达NVentures、AMD Ventures、Intel Capital等科技与风投机构[4] 技术方向 - 核心研究方向为"世界模型"，即AI对现实世界的三维理解能力，需结合视觉、空间感、动作等多维度信息[15][18] - 关键技术包括：NeRF（神经辐射场）实现二维图像到三维重建、高斯平面表示法提升实时渲染效率、扩散模型优化空间数据细节[30][33][38] - 需突破多视角数据融合与物理动态建模，使AI能预测物体运动（如风吹树叶、球体滚动）[41][46] 应用场景 - 游戏行业：AI根据照片或视频自动生成逼真三维场景，替代传统手工建模[51] - 建筑行业：几分钟内生成立体结构并模拟光照效果，大幅提升设计效率[53] - 机器人领域：赋予三维视觉能力，解决二维视觉导致的距离判断与导航问题[54] - 数字孪生：构建工厂/城市的虚拟副本用于灾害模拟与优化[56] - 创意产业：辅助艺术家进行空间化创作，成为"创作者伙伴"[59] 行业挑战 - 数据瓶颈：需大量带深度信息与空间结构的真实场景数据，目前获取成本高[63][64] - 算力限制：NeRF等技术计算资源需求大，难以大规模商业化落地[66] - 泛化能力：模型在陌生场景中易失效，需提升适应性[67] - 需跨学科协作整合硬件、软件、数据与应用生态[69] 团队与行业趋势 - World Labs团队涵盖计算机视觉、图形学、扩散模型、物理仿真与机器人控制等多领域专家[73][75] - AI研究范式从单一学科转向多学科融合，需集体智慧推动系统工程[77] - 空间智能被视为实现通用人工智能（AGI）的第一步，需具备空间感知与动态推理能力[94][95]

空间智能

世界模型

通用人工智能 (AGI)

Artificial Intelligence

Artificial Intelligence

世界模型

空间智能