3DGS
搜索文档
地平线RAD:基于3DGS 大规模强化学习的端到端驾驶策略
自动驾驶之心· 2025-11-29 10:06
文章核心观点 - 提出首个基于3D高斯溅射技术构建传感器级仿真环境并用于端到端强化学习自动驾驶策略的方法RAD [1] - 该方法采用三阶段训练流程:感知预训练、模仿学习预训练、强化学习与模仿学习混合微调 [3][5] - 与纯模仿学习方法相比碰撞率降低3倍动态碰撞率从0.24降至0.08静态碰撞率从0.03降至0.009 [25][29] 技术方案架构 - 状态空间包含BEV编码器学习实例级鸟瞰图特征地图头学习静态元素代理头学习动态交通参与者图像编码器学习规划特征规划头使用Transformer解码器整合场景表示 [7] - 动作空间横向动作范围-7.5米至7.5米纵向动作范围0米至15米均离散化为61个动作间隔0.25米动作执行周期0.5秒 [8] - 策略优化结合PPO算法与模仿学习通过自行车模型计算车辆位置更新 [11][12] 奖励函数与辅助任务 - 奖励函数按横纵向解耦设计包含动态碰撞静态碰撞位置偏差朝向偏差四项主要奖励 [16][17] - 辅助任务针对减速加速左转右转行为设计利用GAE计算损失权重例如动态碰撞辅助损失鼓励前方碰撞时减速后方碰撞时加速 [20][22] - 整体优化目标包含PPO损失与四项辅助损失加权和 [19][23] 训练流程与数据 - 第一阶段使用2000小时真实驾驶数据预训练感知模块 [28] - 第二阶段使用里程计数据监督训练规划模块 [28] - 第三阶段选取4305个关键场景其中3968个训练337个测试使用3DGS重建环境进行强化学习微调 [10][28] - 训练中强化学习与模仿学习数据比例4:1时效果最优 [28] 实验效果与对比 - 在碰撞率位置偏差率等关键指标上显著优于VADGenADVADv2等基线方法例如碰撞率从VAD的0.335降至0.089 [25][29] - 奖励函数与辅助任务消融实验证实所有组件均有效动态碰撞奖励对降低碰撞率作用显著 [25][27] - 方法在动态环境处理上展现闭环训练优势相比开环模仿学习更能适应分布外场景 [28][29]
面向工业界的3DGS全栈学习路线图(前馈GS等)
自动驾驶之心· 2025-11-27 08:04
课程核心观点 - 3D高斯泼溅技术领域技术迭代速度极快,涵盖静态重建、动态重建、表面重建及前馈模型等多个方向[1] - 行业存在理论与实践结合的学习门槛,缺乏系统化的学习路径[1] - 课程旨在提供从原理到实战的完整3DGS技术栈学习方案,由工业界算法专家讲授[1] 课程大纲与内容 - **第一章:背景知识**:涵盖计算机图形学基础、三维空间表达、渲染管线及3DGS开发工具如COLMAP、Gsplat,并设置基于3D Real Car模型的实战作业[5] - **第二章:原理和算法**:深入讲解3DGS原理、核心伪代码及动态重建、表面重建等前沿算法,实战采用英伟达开源3DGRUT框架[6] - **第三章:自动驾驶应用**:聚焦Street Gaussian、OmniRe、Hierarchy UGP三篇工作,实战使用DriveStudio平台[7] - **第四章:研究方向**:探讨COLMAP扩展、深度估计、Relighting等方向,分析其工业界应用与学术前景[8] - **第五章:前馈3DGS**:梳理前馈模型发展历程与原理,讲解AnySplat和WorldSplat等最新算法[9] - **第六章:答疑交流**:通过线上形式讨论行业岗位需求、技术痛点等开放性问题[10] 课程安排与面向人群 - 课程为期两个半月,采用离线视频教学结合VIP群答疑模式,章节从12月1日起分阶段解锁[12] - 面向具备GPU算力、计算机图形学基础、Python/PyTorch能力的学习者,目标人群覆盖实习、校招、社招阶段[14] - 讲师为QS20硕士,现任Tier1厂商算法专家,拥有三维重建及自动驾驶仿真引擎开发经验[2]
特斯拉的场景重建值得国内重视,前馈GS才是未来方向......
自动驾驶之心· 2025-11-07 08:05
特斯拉世界模型技术分析 - 特斯拉基于FeedForward Gaussian Splatting实现闭环仿真或世界模型 其算法输入包含视觉视频、导航地图、车辆运动学及音频 输出包含全景分割、3D OCC、3D Gaussian和语言等 这些内容共同推理出行动[2] - 采用FeedForward GS技术后 可直接从视觉输入建模出3D场景 优化时间从传统GS的30分钟大幅减少至220毫秒 且不再依赖点云初始化[4] - 与传统GS相比 特斯拉生成式GS在新视角下的重建效果显著提升 动态目标模糊和伪影问题得到极大优化 车身结构、地面及车辆的重建质量有明显改善[4] - 目前国内尚无公司能达到与特斯拉相媲美的效果 预计国内新势力厂商将对此技术方向加大重视 相关岗位需求可能增多[4][6] 3D Gaussian Splatting技术演进与行业应用 - 3DGS技术迭代迅速 已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS 乃至目前的前馈式3DGS 该技术在学术界和工业界均受到高度重视[7] - 技术领域存在学习门槛 需同时掌握点云处理、深度学习理论、实时渲染及代码实战等多方面知识[7] 专业课程内容概述 - 课程第一章涵盖计算机图形学基础 包括三维空间的隐式与显式表达、渲染管线、光线追踪及辐射场渲染 并介绍3DGS常用开发工具如COLMAP和Gsplat 附带基于3D Real Car训练模型的小作业[11] - 第二章深入讲解3DGS原理算法及核心伪代码 涵盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战部分采用英伟达开源3DGRUT框架[12] - 第三章聚焦自动驾驶仿真重建 重点解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作 实战使用DriveStudio框架[13] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及Relighting 并分析其工业界应用与学术前景[14] - 第五章专述前馈3DGS 梳理其发展历程与算法原理 讲解AnySplat和WorldSplat等最新算法工作[15] - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 开课时间为12月1日 预计两个半月完成全部章节学习[18] 课程面向人群与要求 - 课程面向具备一定计算机图形学基础 了解视觉重建、NeRF、3DGS等技术 并拥有概率论、线性代数及Python、PyTorch语言基础的学员 推荐自备算力在4090及以上的GPU[20] - 学员通过学习可掌握3DGS完善的理论知识及相关技术栈 熟悉算法开发框架并训练开源模型 并能与学术界、工业界同行持续交流 对实习、校招和社招均有助益[20]
工业界大佬带队!三个月搞定3DGS理论与实战
自动驾驶之心· 2025-11-04 08:03
3DGS技术发展与应用 - 新视角合成的核心目标是通过图像或视频构建可被计算机处理和理解的3D模型,催生了3D建模、虚拟现实和自动驾驶闭环仿真等大量应用 [2] - 早期算法如SfM和MVS受限颇多,2020年的NeRF打破了僵局,但其仍面临计算效率和可编辑性差的问题,导致2023年的3DGS一经问世便迅速火爆 [2] - 3DGS技术迭代速度极快,已衍生出静态重建3DGS、动态重建4DGS、表面重建2DGS,并进一步催生了前馈式3DGS以解决逐场景优化的不便 [4] 课程内容与结构 - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪和辐射场渲染,并介绍3DGS常用开发工具如SuperSplat、COLMAP和Gsplat [10] - 第二章深入讲解3DGS原理及核心伪代码,覆盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战部分选用英伟达开源的3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界广泛使用的DriveStudio [12] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及重光照,分析这些方向如何服务工业界及未来走势 [13] - 第五章讲解前馈式3DGS,梳理其发展历程和算法原理,并解析最新的AnySplat和WorldSplat算法工作 [14] 课程安排与目标人群 - 课程面向具备一定计算机图形学基础、了解视觉重建/NeRF/3DGS技术、拥有概率论和线性代数基础、并掌握Python和PyTorch语言基础的学习者 [19] - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学,VIP群内答疑加三次线上答疑的形式 [17] - 学习者完成课程后可掌握3DGS完善的理论知识及相关技术栈、掌握3DGS算法开发框架并训练开源模型,并能与学术界及工业界同行持续交流 [19]
北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!
自动驾驶之心· 2025-09-01 07:33
3D场景重建与编辑技术突破 - 提出DrivingGaussian++框架 实现大规模动态驾驶场景的高精度分层建模 通过复合高斯泼溅(Composite Gaussian Splatting)将场景分解为静态背景和动态目标分别重建[4] - 引入LiDAR先验提升几何精度 将多帧LiDAR扫描点云与环视图像配准 通过密集束调整(DBA)优化点云位置 显著改善多视图一致性和重建质量[11][25][26] - 采用增量静态3D高斯(Incremental Static 3D Gaussians)处理大规模背景 按时间顺序划分深度区间并逐步融合 解决透视变化导致的尺度混淆问题[27][29] - 构建复合动态高斯图(Composite Dynamic Gaussian Graphs)建模多目标 通过目标ID和时间戳跟踪动态元素 使用变换矩阵将目标坐标系转换到世界坐标系[31][32] 无需训练的场景编辑能力 - 开发无需训练的编辑框架 支持纹理修改 天气仿真和目标操纵三大任务 通过直接操作高斯粒子实现物理准确的编辑效果[18][19][20] - 纹理修改采用深度均衡化技术 对编辑区域深度图进行归一化处理 确保表面平整度 公式为$D_{\rm opt}(M_{\rm edit},x,y)=Average(D_{\rm ori}(M_{\rm edit},y))$[44][46] - 天气仿真通过粒子系统实现 雨滴使用狭窄半透明白色高斯 雪花采用不规则白色椭球高斯 雾采用随机分布高斯 并添加物理轨迹模拟动态效果[47] - 目标操纵支持删除和插入操作 利用3D边界框精确定位 对插入目标使用MCLight进行光照适配 并通过LLM生成运动轨迹预测[48][51] 性能表现显著领先 - 在nuScenes数据集上PSNR达28.74 SSIM达0.865 LPIPS降至0.237 全面优于Instant-NGP(PSNR 16.78) Mip-NeRF360(PSNR 22.61)和EmerNeRF(PSNR 26.75)[55][56] - 编辑效率显著提升 执行时间仅需3~10分钟 远低于InstructNeRF2NeRF的274分钟和ClimateNeRF的107分钟[70][71] - 在CLIP-direction相似性指标上达0.2327 超过InstructNeRF2NeRF(0.1570)和InstructGS2GS(0.0918) 体现卓越的文本对齐能力[71] - 单目视图重建在KITTI-360数据集表现优异 PSNR达25.62 SSIM达0.868 超过NeRF(21.94)和Point-NeRF(21.54)[59][60] 构建3D高斯前景资源库 - 创建包含车辆 行人 交通标志等元素的3D高斯前景库 支持直接插入场景编辑[62][74] - 通过在线模型重建 使用Blender渲染360度视图并结合COLMAP进行3DGS重建[76] - 对nuScenes车辆进行稀疏重建 每辆车仅需2~4张参考图像即可完成高斯重建[77] - 结合DreamGaussian和DreamGaussian4D实现基于图像的3D目标生成 扩展数据集多样性[77] 技术方案优势验证 - 消融实验证实LiDAR先验关键作用 使用LiDAR-2M点云时PSNR达28.78 显著优于随机初始化(22.23)和SfM点初始化(28.36)[79][80] - 复合动态高斯图模块贡献突出 移除后PSNR降至26.97 SSIM降至0.752 证明其对动态场景建模的重要性[82][83] - 损失函数设计有效 包含TSSIM损失和鲁棒损失后 纹理细节改善且伪影消除[37][38][84]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 16:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 11:03
具身智能之心论文辅导服务 - 核心观点:提供具身智能领域的论文辅导服务,帮助学员冲击顶级会议 [1] - 辅导方向包括多模态大模型、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能体、3DGS等 [2] - 辅导老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议发表过论文 [3] 学员要求 - 需要自带简历,学校背景要求国内TOP100高校或国外QS200以内 [5] - 详细内容可通过微信咨询 [5]