Workflow
Neural Radiance Fields (NeRF)
icon
搜索文档
聊聊自动驾驶闭环仿真和3DGS!
自动驾驶之心· 2025-07-22 20:46
神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆,这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示,利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性,例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示,将场景建模为基于点的背景和前景物体,每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观,前景点使用动态球面谐波模型,实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式,便于组合单独模型,支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点,每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量,避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观,并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云,点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似,但位置、旋转和外观模型不同,在物体局部坐标系中定义[11] - 引入4D球谐函数模型,用傅里叶变换系数替代SH系数,将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题,避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化,通过投影到图像平面获取颜色[17] - 对于物体模型,收集3D边界框内的聚合点并转换到局部坐标系,点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样,过滤不可见点,结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向,包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛,涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展,但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析,以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业,以及升学和求职经验分享[45][47]
李飞飞的世界模型,大厂在反向操作?
虎嗅· 2025-06-06 14:26
公司概况 - 李飞飞创办的World Labs专注于开发具备"空间智能"的下一代AI系统,探索AI对三维世界的理解与建模能力[2] - 公司在2024年成立后三个月内完成两轮融资,累计筹集2.3亿美元,估值突破10亿美元成为AI领域独角兽[3] - 投资方包括a16z、英伟达NVentures、AMD Ventures、Intel Capital等科技与风投机构[4] 技术方向 - 核心研究方向为"世界模型",即AI对现实世界的三维理解能力,需结合视觉、空间感、动作等多维度信息[15][18] - 关键技术包括:NeRF(神经辐射场)实现二维图像到三维重建、高斯平面表示法提升实时渲染效率、扩散模型优化空间数据细节[30][33][38] - 需突破多视角数据融合与物理动态建模,使AI能预测物体运动(如风吹树叶、球体滚动)[41][46] 应用场景 - 游戏行业:AI根据照片或视频自动生成逼真三维场景,替代传统手工建模[51] - 建筑行业:几分钟内生成立体结构并模拟光照效果,大幅提升设计效率[53] - 机器人领域:赋予三维视觉能力,解决二维视觉导致的距离判断与导航问题[54] - 数字孪生:构建工厂/城市的虚拟副本用于灾害模拟与优化[56] - 创意产业:辅助艺术家进行空间化创作,成为"创作者伙伴"[59] 行业挑战 - 数据瓶颈:需大量带深度信息与空间结构的真实场景数据,目前获取成本高[63][64] - 算力限制:NeRF等技术计算资源需求大,难以大规模商业化落地[66] - 泛化能力:模型在陌生场景中易失效,需提升适应性[67] - 需跨学科协作整合硬件、软件、数据与应用生态[69] 团队与行业趋势 - World Labs团队涵盖计算机视觉、图形学、扩散模型、物理仿真与机器人控制等多领域专家[73][75] - AI研究范式从单一学科转向多学科融合,需集体智慧推动系统工程[77] - 空间智能被视为实现通用人工智能(AGI)的第一步,需具备空间感知与动态推理能力[94][95]