自动驾驶之心
搜索文档
北交&地平线提出DIVER:扩散+强化的多模态规划新框架
自动驾驶之心· 2025-12-17 11:18
文章核心观点 - 当前主流端到端自动驾驶系统存在模仿学习范式导致的“模式坍塌”问题,即模型倾向于生成高度聚集在单一专家轨迹附近的行为,缺乏真正有意义的行为多样性,限制了在复杂场景下的决策能力 [2][7] - 研究团队提出了一种名为DIVER的新型多模态规划框架,该框架将扩散模型的多模态生成能力与强化学习的目标约束机制相结合,将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题” [3][9] - DIVER框架在多个公开基准测试中表现优异,在显著提升轨迹多样性的同时保持了低碰撞率,展现出更强的复杂场景适应能力,为构建更灵活、更接近人类决策的自动驾驶系统提供了新的技术路径 [3][33][34] 研究背景与问题 - 端到端自动驾驶系统在真实测试中表现出行为过于保守和模式单一的问题,难以应对复杂交通场景 [5] - 问题的根源在于主流方法依赖单一专家示范的模仿学习范式,模型被迫去拟合一条“唯一正确”的专家轨迹,即使引入多模态规划,生成的候选轨迹也高度聚集在真实轨迹附近,缺乏真正的行为多样性 [2][6][7] - 人类驾驶在相同场景下会展现出减速、并线、绕行或等待等多种行为,当前模型缺乏这种在行为多样性与安全约束之间取得平衡的能力 [8] DIVER框架核心技术 - 核心思想是不再把轨迹生成当作拟合真实轨迹的回归问题,而是当作在安全与多样性约束下的策略生成问题 [11][12] - 框架构建了“扩散生成 + 强化学习优化”的完整流程,主要包括:策略感知扩散生成器、参考真实轨迹引导的多模态扩散、以及基于GRPO的强化学习优化 [11][12] - 策略感知扩散生成器是核心模块,它在扩散去噪过程中引入地图、动态物体、参考轨迹等条件信息,使生成的每条轨迹都具备清晰语义与可行性 [16][18] - 采用多参考真实轨迹引导机制,从专家轨迹中构建多个参考真实轨迹,并使用匈牙利匹配进行一对一监督,为每个预测模式明确赋予一种驾驶意图,从源头上避免模式坍塌 [20][21] - 采用分组相对策略优化强化学习方法,为生成的轨迹引入多样性、安全、轨迹一致性与车道保持等多种轨迹级奖励,确保在探索多样性的同时保持驾驶质量 [22] 性能评估与结果 - 在Bench2Drive闭环评测中,DIVER在多项关键指标上显著优于UniAD、VAD、SparseDrive、DiffusionDrive等方法 [28] - 在Turning-nuScenes数据集的评测中,DIVER的轨迹多样性显著更高,同时碰撞率最低。例如,在平均多样性指标上达到0.31,优于对比方法的0.21、0.23和0.20;平均碰撞率为0.27%,低于对比方法的0.40%、0.34%和0.32% [29][30][31] - 在nuScenes验证集的6秒长时预测任务中,DIVER在多样性上大幅领先,同时保持最低碰撞率。例如,在3秒时多样性为0.75,碰撞率为1.91%,均优于对比方法 [32] - 文章总结DIVER展示了显著更高的轨迹多样性、更低的碰撞率、更稳定的长时规划能力以及更强的复杂场景泛化能力 [33][36]
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 08:03
文章核心观点 - 华科与小米团队提出了一种名为MindDrive的新型自动驾驶视觉-语言-动作框架,该框架创新性地采用在线强化学习进行训练,有效解决了传统模仿学习方法面临的分布偏移和因果混淆等挑战,并在Bench2Drive基准测试中取得了优异的性能,驾驶得分达78.04分,成功率达55.09% [2][4][8][17][34] 背景与挑战 - 当前自动驾驶视觉-语言-动作模型主要依赖模仿学习,这会导致因果混淆和分布偏移,进而在闭环驾驶中产生不可逆的误差累积 [4] - 将在线强化学习应用于自动驾驶VLA模型面临连续动作空间中探索效率低下的难题 [2] - 现有强化学习应用分为两类:在动作空间使用离线强化学习,限制了模型与环境交互探索的能力;在语言空间使用在线强化学习,但难以将驾驶决策有效映射为类人的具体驾驶轨迹 [5] MindDrive框架设计 - MindDrive的核心架构包含两个共享视觉编码器和文本分词器、但配备不同LoRA参数的大语言模型:一个作为决策专家负责场景推理和驾驶决策,另一个作为动作专家负责将语言决策动态映射为可行驶轨迹 [2][8][11] - 该框架通过将轨迹级奖励反馈至推理空间,使模型能在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作,从而平衡了最优决策、类人驾驶行为与探索效率 [2][8] - 训练过程分为两个阶段:首先通过模仿学习在决策专家推断的元动作与动作专家输出的轨迹之间建立一一对应关系,为在线强化学习提供高质量候选轨迹;随后利用在线强化学习对决策专家进行优化 [8][11][18] 在线强化学习实施方案 - 基于CARLA仿真器构建了面向VLA模型的在线闭环强化学习框架,定义了明确的任务成败信号,并将过程划分为数据收集和训练两个阶段 [8] - 采用稀疏奖励函数:成功到达目的地奖励+1,触发碰撞、闯红灯等预定义惩罚事件奖励-1,其他情况奖励为0 [25][26] - 采用近端策略优化算法优化策略,并引入KL散度损失作为正则化项以缓解强化学习微调阶段的灾难性遗忘问题 [28][30][32] - 通过视觉编码器预计算场景令牌作为紧凑状态表示,降低了内存开销,支持大批量训练,并将过程表述为标准马尔可夫决策过程 [8][15] 实验结果与性能 - 在Bench2Drive基准测试中,MindDrive取得了78.04的驾驶得分和55.09%的成功率 [2][17][34] - 即使采用轻量级的Qwen2-0.5B参数模型,其驾驶得分比相同参数规模的强基线模型高出5.15分,成功率高出9.26个百分点 [2][34] - 相较于仅使用模仿学习的版本,在线强化学习使驾驶得分提升2.19分,成功率提升5.79个百分点 [34][38] - 在视觉-语言-动作范式中,MindDrive性能与使用更大规模模型的最先进模仿学习方法相当,并超越了其他离线强化学习方法 [34][38] 消融实验发现 - 逐步引入碰撞、交通灯、路线偏离、停车等惩罚事件能持续提升模型性能,最终版本相比模仿学习基准成功率提升5.79个百分点 [36] - 在线强化学习过程中,将滚动次数设为2次能取得最佳性能,过多滚动会导致灾难性遗忘和性能下降 [37] - 采用KL散度正则化的PPO算法相比基础PPO和熵正则化PPO,能更有效地稳定训练,驾驶得分分别提升3.31分和2.33分 [40] - 使用大语言模型生成的元动作作为高层指令,相比使用导航指令,驾驶得分提升7.74分;在此基础上引入在线强化学习可进一步优化元动作选择 [41] 意义与贡献 - 据研究团队所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究,也是首个在仿真器中通过在线强化学习训练的基于VLA的自动驾驶模型 [2][8][44] - 该工作为自动驾驶领域带来了新的启发,展示了通过语言接口和在线试错来提升模型因果推理与决策鲁棒性的潜力 [8][44]
厘米级精度的三维场景实时重构!这款激光扫描仪太好用了~
自动驾驶之心· 2025-12-17 08:03
产品发布与定位 - 公司正式发布GeoScan S1手持三维激光扫描仪,定位为国内目前最强性价比的实景三维激光扫描仪 [3][11] - 产品由同济大学刘春教授团队与西北工业大学产业化团队合作推出,基于多年科研和行业积累,并经过上百个项目验证 [10][11] - 产品旨在构建数字世界、推动三维孪生,通过轻量化设计和一键启动降低开发门槛,助力开发者快速掌握研发能力 [3][12] 核心性能与技术参数 - 扫描性能:每秒生成20万点云,最远测量距离70米,水平视角360°全域覆盖,支持超过20万平方米的大场景扫描 [3][24][31][32] - 测量精度:相对精度优于3厘米,绝对精度优于5厘米,在70米距离处精度控制可达±1.5厘米 [24][31] - 传感器融合:集成3D激光雷达、双广角相机、深度相机、9自由度IMU、RTK模块,通过微秒级同步模块实现多传感器数据融合 [15][24][36][37] - 实时处理:支持三维点云地图动态构建、色彩融合与实时预览,建图过程支持实时解算 [24][29] - 计算单元:搭载Intel N5095四核处理器(主频2.0GHz,睿频2.9GHz),配备16GB内存和256GB存储 [24] 产品设计与硬件配置 - 外观设计:采用小巧一体化机身,尺寸为14.2cm * 9.5cm * 9.5cm * 45cm,外壳为航空铝材质,不含电池重量1.3公斤,含电池重量1.9公斤 [14][24] - 激光雷达采用25°倾斜角安装设计,兼顾多个方位,无需反复采集即可提高效率 [17][18] - 供电系统:配备可快拆充电手柄,内置88.8Wh弹夹电池,续航时间约3至4小时,支持13.8V至24V宽电压输入 [24][26][28] - 接口与扩展:设备自带手持Ubuntu 20.04系统,支持ROS,提供千兆网口、双USB 3.0接口、Micro SD卡槽,支持Wi-Fi/蓝牙连接,具备灵活的扩展能力 [5][24][25] 软件功能与数据输出 - 软件系统:搭载成熟的多传感器融合SLAM建图算法,可实时输出高精度彩色点云数据 [29][36] - 数据输出:支持输出彩色点云,导出数据格式包括pcd、las、plv等多种通用格式 [24] - 3D高斯渲染:提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,可实现高保真实景还原 [7][8][53] - 操作流程:软件提供快速建图、启动相机、调整曝光参数、录包保存数据等功能,操作界面直观 [45] 应用场景 - 广泛适用于各类复杂室内外场景,包括写字楼、停车场、工业园区、隧道、森林、矿场等 [40][49] - 支持与无人机、无人车、机械狗、人形机器人等多种负载平台集成,实现跨平台组合与无人化作业 [47] - 具体应用领域涵盖地理信息数据采集、城市规划、文物保护、建筑测绘、施工工程精度控制等 [55][57] 产品版本与价格 - 公司推出四个版本以满足不同需求:基础版、深度相机版、3DGS在线版、3DGS离线版 [60] - 产品首发价格:基础版本19800元起,深度相机版本23800元,3DGS在线版本39800元,3DGS离线版本67800元 [11][60][61] - 3DGS在线版包含两个月3D高斯云服务,后续云服务续费为5000元/月;离线版需客户自备高性能服务器或由公司另行提供 [61] - 购买产品可提供为期1年的售后服务 [62]
复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2025-12-17 08:03
核心观点 - 研究团队提出了一种名为DriveVGGT的新型视觉几何Transformer模型,专门用于解决自动驾驶场景中多相机、低重叠视野下的4D场景重建难题 [2] - 该模型通过显式引入并有效利用相机相对位姿先验,显著提升了多相机系统的几何预测一致性与推理效率 [2] - 在nuScenes数据集上的实验表明,DriveVGGT在相机位姿估计、深度估计的精度以及推理速度上均优于现有的VGGT系列方法 [11][24][27][30] 技术背景与挑战 - 4D场景重建是从视觉传感器预测几何信息的关键任务,基于相机的方案因低成本在自动驾驶领域被广泛研究 [5] - 前向方法(如VGGT)能直接输出预测,无需迭代优化,泛化能力更强,但在应用于自动驾驶多相机系统时面临两大局限 [5][6] - 局限一:自动驾驶车辆摄像头为平衡视场与成本,视角差异大、图像重叠度低,模型难以识别相似特征并预测有效的图像位姿关系 [6] - 局限二:摄像头相对位姿标定信息易于获取,但因其与前向模型预测结果存在尺度差异,无法直接有效利用,导致几何标记间尺度模糊 [6] DriveVGGT模型架构与创新 - 模型旨在充分利用相机相对位姿信息,提升相机位姿估计和深度估计等几何任务的性能 [10] - 提出一个高效的两阶段流程处理多相机图像 [11] - 第一阶段:使用时序视频注意力模块独立处理每个相机的视频序列,利用单相机序列中的时空连续性,初步输出序列位姿和几何标记 [9][13] - 第二阶段:提出多相机一致性注意力模块,通过将归一化的相对位姿嵌入作为额外标记注入,并采用窗口注意力机制,实现不同摄像头图像在有限序列长度内的交互,建立一致性关系 [9][11][15] - 引入相对位姿嵌入模块,对真实世界相机位姿进行归一化并映射到与模型标记相同的维度,以缓解输入输出间的尺度差异 [14] - 最终,预测头将优化后的特征解码为相对位姿、序列位姿和深度的预测结果 [16] 实验结果与分析 - **实验设置**:在nuScenes数据集上进行,该数据集包含6个低重叠摄像头采集的图像,使用700个场景训练,150个验证,图像分辨率从1600x900降至518x280 [19][23] - **位姿估计性能**:在输入210张图像(35帧)的场景中,DriveVGGT(VGGT)的AUC(30)指标达到0.7200,优于原始VGGT的0.6871和fastVGGT的0.6830 [24][25] - **深度估计性能**:在35帧场景中,DriveVGGT(fastVGGT)的Abs Rel指标达到0.3539,表现最佳,显示了其处理长序列多相机视频的能力 [27][29] - **推理速度**:DriveVGGT(VGGT)在35帧场景中的推理时间仅为原始VGGT的50%,实现了更快的推理速度 [30] - **消融实验**:验证了各模块的有效性,仅使用时序视频注意力的基线模型AUC(30)仅为0.039,加入相对位姿嵌入后提升至0.7855,完整DriveVGGT达到0.8010 [34][36] - **窗口注意力**:测试表明窗口大小为3时能在性能与效率间取得最佳平衡 [38] - **尺度预测**:基于尺度的对齐方法在15帧场景下将Abs Rel从0.3805降至0.3666,证明了尺度预测头能将深度转换至真实世界尺度的有效性 [39][40]
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-12-17 08:03
算法核心原理 - Flow Matching是一种生成式模型,旨在学习一个从随机噪声数据到目标数据分布的映射,其核心思想是学习一个速度场(或方向场),指导数据点从初始噪声状态向目标状态移动 [3][4][5] - 与直接学习端到端映射不同,Flow Matching通过构造从源点(噪声)到目标点的连线,并在连线上采样中间点,让模型学习这些中间点应该朝目标点移动的方向(即速度场),训练时,同一个中间点可能受到多条连线影响,其学习到的方向是多个目标方向的均值 [16][17] - 在推理(生成)阶段,模型从一个随机噪声点出发,依据学习到的速度场逐步移动,随着移动过程,状态的可能性会逐渐“坍缩”到目标分布中的某个特定样本附近,从而生成高质量结果,这避免了直接映射可能导致的输出为多个目标状态均值的问题 [7][17] 算法优势与对比 - 相比自回归生成模型(逐个像素/元素生成),Flow Matching在一次前向传播中生成整个样本,效率更高,避免了自回归模型需要多次调用模型的低效问题 [10] - 相比扩散模型(Diffusion Model),Flow Matching被视为一种更直接高效的替代方案,它通过学习确定性的移动方向来生成数据,而非多步迭代去噪,因此在Stable Diffusion 3、Meta MovieGen等先进模型中已开始应用 [12] - 该算法通过逐步“坍缩”状态来确保生成质量,在推理初期,移动方向可能是多个可能性的平均,但随着过程推进,方向会越来越确定,最终收敛到目标分布中的一点 [11][17] 算法实现与代码 - 基础实现包含几个关键步骤:为每个目标样本生成一个随机噪声源点;在源点与目标点连线上进行线性插值,采样得到中间点;用一个神经网络预测这些中间点的速度场;使用源点到目标点的真实方向向量作为监督信号进行训练 [18] - 代码示例以生成二维正弦曲线上的点为例,定义了向量场预测网络,在训练循环中计算预测速度场与目标速度场(`x1 - x0`)之间的均方误差损失,并通过数值求解常微分方程(ODE)的方式从噪声点出发生成最终样本 [19][20][21] - 算法可扩展为条件生成模型,通过简单修改网络结构,在输入中融入提示词(如标签、文本等)信息,即可控制生成样本的特定属性,例如控制生成正弦曲线上特定区间的点 [24][26][29] 高级应用实例 - 在手写数字生成(MNIST)任务中,采用了条件UNet作为预测速度场的骨干网络,因其具有多尺度特征融合能力,适合图像类生成任务 [32][33] - 在推理阶段,采用了自适应步长的ODE求解器(如`dopri5`方法),替代固定的欧拉法步进,可以在相同的迭代步数下获得更精细的生成结果,提升了生成效率和质量 [32][36] - 训练流程中,动态生成噪声样本和时间步长`t`,通过`xt = (1 - t) * noise + t * images`构造中间状态,并让模型预测从噪声到真实图像的向量场 [40]
这个自动驾驶黄埔军校,近4500人了
自动驾驶之心· 2025-12-16 17:25
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流与学习平台,通过整合行业动态、技术资料、学习路线、专家资源和求职服务,为从业者及初学者提供一站式学习与交流环境,以降低行业入门壁垒并推动领域进步 [8][22] 社区概况与规模 - 社区已运营超过三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员已超过4000人,并计划在未来两年内达到近万人的规模 [8] - 社区成员背景多元,来自国内外知名高校(如上海交大、清华大学、CMU、ETH等)及头部公司(如蔚小理、地平线、华为、英伟达、百度等)[22] 内容与资源体系 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容覆盖从基础到进阶的全栈知识 [13][23] - 汇总了大量开源资源,包括近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台 [23] - 提供了结构化的知识目录,涵盖六大板块:行业与高校介绍、基础入门、算法进阶、实战落地、自动驾驶100问系列及原创直播课程 [15][16] 行业动态与技术前沿 - 社区持续更新最新的行业动态与技术进展,例如Waymo的基座模型、地平线技术生态大会洞察、英伟达2025年技术图鉴、理想汽车的最新数据闭环技术等 [7] - 重点关注前沿技术领域,包括端到端自动驾驶、视觉语言模型、世界模型、3D高斯溅射、扩散模型、BEV感知、Occupancy网络等 [7][10][23] 学习与课程支持 - 为入门者提供了全栈方向的学习课程,包括感知融合、多传感器标定、SLAM、规划控制、数据工程、模型部署等系列视频教程 [16] - 设有“自动驾驶100问”系列,针对TensorRT部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程实践问题进行深度解析 [15] 专家互动与直播 - 社区邀请了数十位活跃在学术界与工业界的一线专家作为嘉宾,为成员答疑解惑 [10] - 已组织超过一百场专业技术直播,内容涵盖VLA模型、V2X、3D检测、扩散模型规划器、3DGS等前沿主题,直播内容可回看 [95] 求职与职业发展 - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员将简历直接投递至心仪公司 [16] - 提供职业发展咨询,包括offer选择、学习路线规划、跳槽建议、博士研究方向选择等实用问题解答 [10][26]
文远知行韩旭:中国真正L4只有3家......
自动驾驶之心· 2025-12-16 17:25
公司现状与成就 - 文远知行已成为美股港股双重上市的“Robotaxi第一股”[3] - 公司在全球部署超过1600辆自动驾驶车辆,其中Robotaxi数量超过750辆,相比一年前IPO时增长至少30%[9][10] - 公司是L4赛道中最早出海并行动最迅速的玩家,已在11个国家、30多座城市部署Robotaxi,并是行业首个获得8个不同国家自动驾驶牌照的科技企业[12] - 公司是中国Robotaxi出海第一名,也是自动驾驶行业内落地Robotaxi场景最丰富的玩家[13] - 公司是L4赛道中唯一拥有稳定量产智能辅助驾驶项目的玩家,也是行业内唯一一家L4、L2技术栈全覆盖且均有成熟落地案例的公司[40] 行业竞争格局与技术壁垒 - 根据韩旭提出的标准,中国真正的L4公司只有三家:文远知行、百度Apollo、小马智行[28] - 判断真L4公司的标准:至少有一个20-30辆车的车队纯无人跑半年,以及进行纯无人的商业运营[25][27] - L2与L4之间的技术壁垒未被打破,L2++的难度与纯L4相比是天壤之别[24][29] - 韩旭预测,如果特斯拉坚持使用Model 3/Y这样的L2量产车且在3年内不装激光雷达,将无法在旧金山达到Waymo目前的水平[33] 技术路线与业务发展 - 文远知行目前同时推进L4 Robotaxi和L2+智能辅助驾驶业务,即“搏二兔”[6][22] - 公司认为,由于底层计算硬件(如单卡算力达1000TOPS+的Thor芯片)的快速发展,L4和L2+在算力层面已交汇重合,使得有能力的玩家可以同时推进两项业务[42][44] - 公司已发布量产就绪的一段式端到端方案,并与地平线、Momenta并称“文地魔”第一梯队[22][41] - 该方案旨在利用L4同源技术,将高阶智能辅助驾驶能力普及到各个价位车型,推动L2+越过“价值拐点”[50] - 公司构建了通用AI司机体系,在感知识别、决策规划等环节复用算法,并使用相同的基础数据训练L2和L4模型[47] 未来展望与战略 - 公司的终极目标是统一融合L4与L2架构,使Robotaxi的“地理围栏”范围扩大到与普通乘用车一致,从而实质上消除地理围栏[52] - 公司正在全球范围内(海外)进行Robotaxi的跑马圈地[6] - 公司以300万起、500万封顶的年薪广招AI英才,并强调以真金白银而非画饼的方式激励人才[54] 行业数据与动态 - 百度萝卜快跑在11月公布的Robotaxi最新周订单数为25万单[10] - 小马智行Q3财报显示其Robotaxi车队数为961台,在广州的单台车日均订单量达到23单[10] - Waymo车队规模为2500辆,每分钟能完成45单[12] - 目前中国市场标配高阶智能辅助驾驶的车型,在全价位全品类中占比还不到20%[50]
理想一篇OCC世界模型:全新轨迹条件稀疏占用世界模型SparseWorld-TC
自动驾驶之心· 2025-12-16 11:16
文章核心观点 - 同济大学与理想汽车联合团队提出了一种名为SparseWorld-TC的全新轨迹条件稀疏占用世界模型,该模型通过创新的纯注意力驱动架构,摒弃了传统的鸟瞰图表示和离散令牌化技术,实现了端到端的4D占用预测,在nuScenes基准测试中取得了突破性性能,特别是在长时预测任务中展现出卓越的稳定性和准确性 [2][3][40] 自动驾驶世界模型的技术演进与核心挑战 - 世界模型是理解环境动态的核心框架,对于自动驾驶等AI系统至关重要,其发展经历了从基于物理规则到数据驱动方法的演进,基于占用的世界模型因直接适用性而备受关注 [6] - 现有世界模型方法存在三大局限性:表示层面依赖离散化导致信息损失;结构层面依赖鸟瞰图引入过强几何先验,限制了特征交互灵活性;生成范式层面,自回归方法存在误差累积,扩散方法计算成本高 [7] - 稀疏表示作为一种新兴技术路线,通过只对场景中实际存在的区域进行建模,显著降低了计算复杂度,并避免了离散化带来的信息损失,其应用符合驾驶场景本质稀疏的特性 [8] SparseWorld-TC的核心创新:架构设计与技术细节 - 整体架构采用纯注意力驱动设计,直接对占用世界进行端到端建模,避免了离散令牌化的表示能力限制和鸟瞰图的几何约束,并采用类似VGGT的前馈架构,在单次前向传播中预测未来占用,提升了推理效率 [9] - 模型采用基于锚点的稀疏占用表示方法,每个锚点由一组随机初始化的3D点和相关特征向量组成,特征向量为每个点预测偏移量和语义标签 [11][12] - 模型引入了轨迹条件机制,将自车的未来规划轨迹参数化为离散状态序列,为世界模型提供了重要的条件信号,使模型能够集成过去上下文和未来意图以生成物理一致的未来场景 [13][14][15][16] - 时空融合架构基于纯注意力机制,核心是完全注意力融合机制,通过交叉注意力、帧级自注意力和时态注意力块,实现传感器观测、占用先验和轨迹信息的高效融合,以捕获长距离时空依赖 [17][21][22] - 训练采用随机集成策略,在训练期间随机选择目标序列长度进行监督,使模型能够灵活适应不同的预测需求;损失函数结合了Chamfer距离损失和焦点分类损失,以平衡几何准确性和语义一致性 [23][24][26][27] 实验设计与评估体系 - 性能评估在Occ3D-nuScenes基准上进行,采用几何交并比和语义平均交并比指标,数据集包含1000个驾驶场景,训练/验证/测试分割为700/150/150 [29][31][32] - 模型配置分为Small和Large版本:Small版每帧600个锚点,每个锚点128个3D点,侧重效率;Large版每帧4800个锚点,每个锚点16个3D点,侧重精度;骨干网络分别使用ResNet-50和DINOv3-Base [32] - 主要实验结果显示,SparseWorld-TC-Large在平均语义mIoU上达到26.42%,比先前最优方法COME提升18.7%;平均几何IoU达49.21%,提升11.7%;小规模版本推理速度达9.35 FPS,适合实时应用 [33] - 在长时预测能力分析中,将预测期延长至8秒,SparseWorld-TC-Large的平均mIoU和IoU分别达到22.33%和45.35%,显著优于对比方法,且在4秒后的预测中性能衰减更慢,证明了长时预测的稳定性 [34][35] - 在基于轨迹条件的预测任务中,模型能够根据不同的未来轨迹(如直行或左转)精确预测场景的演化,并保持场景几何信息的时空一致性 [36][39] 扩展应用:前馈高斯预测与传感器级生成 - SparseWorld-TC的架构具备扩展到传感器级观测生成的潜力,通过集成额外的MLP解码器来预测3D高斯分布的参数,并利用3D高斯溅射技术进行可微分渲染,将预测的高斯参数转换为前视图图像 [41][42][43] - 该扩展技术具备自监督学习能力,可减少对大量标注数据的依赖;支持多模态输出;结合3D高斯溅射的高效渲染,整个系统具备实现实时预测的潜力 [51] - 扩展应用前景包括自动驾驶仿真、预测性规划以及数据增强 [51] - 当前扩展仍面临计算复杂度、对高度动态场景的建模能力以及多传感器融合等挑战 [53]
做了一份3DGS全栈学习路线图,包含前馈GS......
自动驾驶之心· 2025-12-16 11:16
3DGS技术趋势与行业应用 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,表明其可能基于前馈式GS算法实现,该技术正在自动驾驶领域焕发新一轮生机[1] - 行业普遍共识是通过前馈式GS重建场景并利用生成技术生成新视角,多家公司正开放HC招聘相关人才[1] - 3DGS技术迭代迅速,已从静态重建3DGS、动态重建4DGS、表面重建2DGS发展到前馈式3DGS[3] 3DGS技术课程内容 - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型及使用SuperSplat移除杂点的作业[7] - 第二章深入讲解3DGS原理、核心伪代码及动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[8] - 第三章聚焦自动驾驶仿真重建,解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界与工业界广泛使用的DriveStudio[9] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其在工业界的应用与学术界的探索价值[10] - 第五章讲解前馈式3DGS的发展历程、算法原理,并解析最新的AnySplat和WorldSplat算法工作[11] 课程结构与安排 - 课程由工业界算法专家Chris主讲,其为QS20硕士,现任某Tier1厂算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建经验[4] - 课程为离线视频教学,辅以VIP群内答疑及三次线上答疑,开课时间为12月1日,预计两个半月结课[14] - 课程章节解锁时间安排如下:第一章12月1日,第二章12月7日,第三章1月7日,第四章1月21日,第五章2月4日[14] 课程目标人群与要求 - 课程面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,拥有概率论、线性代数基础及Python和PyTorch语言能力的学员[16] - 学员需自备GPU,推荐算力在4090及以上[16] - 学员通过学习将掌握3DGS完善的理论知识及相关技术栈、算法开发框架,并能训练开源模型,有助于实习、校招和社招[16]
十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)
自动驾驶之心· 2025-12-16 08:03
文章核心观点 - 现有自动驾驶生成式世界模型在视觉真实性上已取得显著进展,但在几何一致性、时序稳定性和行为合理性方面存在明显缺陷,且缺乏标准化评估方法 [2][4] - 为解决此问题,研究团队提出了名为WorldLens的全方位评估基准,涵盖生成质量、重建性能、指令跟随、下游任务适配性和人类偏好五个核心维度,旨在引导模型向“不仅看起来真实,更能表现得合理”的方向发展 [2][8][36] - 为衔接客观指标与人类感知,团队构建了包含26,808条标注的WorldLens-26K数据集,并开发了基于人类反馈蒸馏的自动评估代理WorldLens-Agent,共同构成一个可扩展、可解释的评估生态系统 [7][19][20] 背景与问题 - 生成式世界模型已能生成视觉真实感类似行车记录仪的序列,但评估方法发展滞后,缺乏衡量几何结构保持、物理规律遵循和决策可靠性的标准化手段 [4] - 现有广泛使用的指标多侧重于帧质量和美学表现,难以反映物理因果关系、多视角几何一致性或控制场景下的功能可靠性,导致领域进展分散,研究结果缺乏可比性 [4] WorldLens评估框架 - **生成质量**:衡量模型合成视觉真实、时间稳定且语义一致场景的能力,拆解为目标保真度、目标连贯性、目标一致性、深度差异度、时间一致性、语义一致性、感知差异度、跨视角一致性八个子维度 [9][11][13] - **重建性能**:考察生成视频能否通过可微分渲染重建成连贯的4D场景,评估指标包括光度误差和几何差异度,以发现几何“漂浮物”等问题 [9][12] - **指令跟随**:测试预训练动作规划器在生成世界中安全运行的能力,评估发现几乎所有现有世界模型都会导致碰撞或偏离车道等问题 [9][14] - **下游任务适配性**:评估合成数据对基于真实数据训练的下游感知模型(如3D检测、跟踪)的支持效果,视觉效果出色的生成世界也可能导致检测或分割精度下降30%-50% [9][15] - **人类偏好**:通过大规模人类标注捕捉世界真实感、物理合理性和行为安全性等主观评分,研究发现几何一致性强的模型通常被评为更“真实” [9][15] 实验结果与关键发现 - **生成质量**:所有现有模型的表现均显著低于“经验最大值”,驾驶世界模型的视觉与时间真实感仍有巨大提升空间 [23] - **重建性能**:MagicDrive的重建性能最差,其光度误差和几何差异度均比表现最佳的OpenDWM高出两倍以上,而OpenDWM和DiST-4D将光度误差和几何误差降低了约55% [24] - **指令跟随**:在闭环仿真中,所有模型的路线完成率极低,频繁的失败表明当前合成数据仍无法在高级控制任务中替代真实世界数据 [25] - **下游任务适配性**:DiST-4D在所有任务(地图分割、3D检测、跟踪)中均大幅领先,平均比第二名模型高出30%-40% [28] - **人类偏好对齐**:所有模型的整体得分均较为温和(10分制中的2到3分),表明当前世界模型与人类级真实感仍有较大差距,DiST-4D在所有维度上的得分最为均衡 [30] 行业洞察与未来方向 - **全面评估至关重要**:没有任何单一世界模型能在所有方面表现最优,视觉真实感、几何一致性和下游可用性是互补而非可替代的,凸显了多维度基准测试的必要性 [34] - **感知质量不代表可用性**:感知得分优异的模型可能在下游任务中表现不佳,例如OpenDWM的3D检测得分比DiST-4D低30%,表明生成数据与目标域的对齐比感知真实感更为关键 [34] - **几何感知赋能物理连贯性**:DiST-4D在重建和新视角任务中的优异表现,表明几何感知监督能显著提升生成场景的物理真实性和可重建性 [34] - **未来设计指南**:物理接地世界模型的核心设计原则包括:将几何作为核心优化目标、稳定前景动态、确保自回归鲁棒性,以实现从视觉真实感向物理可靠性的进阶 [35]