自动驾驶之心
搜索文档
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 17:23
DiffusionDriveV2模型整体架构 - 模型是一个用于端到端自动驾驶的强化学习约束截断扩散模型,整体架构包括环境编码、轨迹规划、模式选择等模块 [3] - 环境编码部分融合了来自摄像头和激光雷达的BEV特征以及自车状态信息,其中BEV特征经过上采样和下采样处理,自车状态通过编码器处理,两者拼接后作为后续处理的键值对 [5][6] - 解码部分参考了目标检测中的DETR思想,使用查询机制,输出被分割为轨迹查询和智能体查询,用于后续的轨迹规划和交互 [7] 轨迹规划模块核心技术 - 轨迹规划模块利用多尺度BEV特征,通过上采样和特征拼接,增强空间信息的利用 [8] - 采用基于锚点的扩散模型进行轨迹生成,首先通过K-Means聚类从真实轨迹数据中生成一系列轨迹锚点,然后在锚点上加入经过设计的高斯噪声以启动扩散过程 [9][10][11] - 将带噪声的轨迹锚点通过位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询特征以及自车查询特征进行多轮交叉注意力计算,以融合多源信息 [12][13][14][15][16][17] - 融合后的轨迹特征通过一个前馈网络,并利用时间特征进行尺度和偏移调制,最终预测出分类分数和去噪后的轨迹偏移量,该偏移量与原始噪声轨迹相加得到最终预测轨迹 [18][19][20][21][22] 模式选择与轨迹评估机制 - 模型包含一个模式选择器,用于从多个生成的轨迹模态中做出最终决策 [23] - 在轨迹生成(反向去噪)过程中,记录网络所有中间去噪结果以及最终输出 [25] - 使用一个综合评分器对生成的所有模态轨迹进行评估,评分维度包括安全性、舒适性、规则遵守、进度和物理可行性,并通过加权平均计算综合分数 [27] - 安全性检查包括碰撞检测和驶出道路判断,舒适性评估加速度和曲率连续性,规则遵守评估交通灯和车道保持,进度评估是否到达目标,物理可行性检查动力学约束 [27] 强化学习训练与优化策略 - 提出锚点内GRPO强化学习优化方法,在每个轨迹锚点对应的组内进行策略优化,以保持多模态能力同时提升轨迹质量,其损失函数涉及对去噪过程概率的对数求和与优势函数的加权 [28] - 优势函数通过计算组内奖励的相对均值和标准差进行估计,无需额外价值模型,并且通过只保留优于真实轨迹的样本进行对比学习来定义“好”的轨迹 [28][29] - 对优势函数进行截断处理,将所有负优势设为0,并对发生碰撞的轨迹施加-1的强惩罚,以提供清晰一致的学习信号 [30] - 在训练损失中结合了强化学习损失和模仿学习损失,以防止过拟合并保证通用驾驶能力 [39] 噪声设计与损失函数 - 针对轨迹近端与远端尺度不一致的问题,创新性地提出使用乘性高斯噪声替代传统的加性噪声,通过一个纵向和一个横向的乘法噪声因子来调整轨迹点,从而保持探索轨迹的平滑性和结构完整性 [33] - 在训练阶段引入探索噪声,在验证阶段使用确定性推理,并详细计算了每一步噪声对应的对数概率 [37][38] - 总体训练损失由轨迹恢复损失和分类置信度损失两部分组成,通过权重系数进行平衡 [42] - 轨迹恢复损失采用L1损失函数,分类损失使用带权重的焦点损失函数 [41][43]
为什么前馈GS引起业内这么大的讨论?
自动驾驶之心· 2025-12-28 17:23
特斯拉自动驾驶技术方向 - 特斯拉在ICCV的分享指明了智能驾驶下一阶段发展方向为端到端+生成式3D高斯泼溅[2] - 特斯拉的实践基本可以判断是基于前馈式3D高斯泼溅算法实现的[2] 3D高斯泼溅技术演进路线 - 技术发展路线明确:从静态重建3DGS演进至动态重建4DGS,再到表面重建2DGS、场景重建混合GS,最终到前馈GS[3] - 前馈式3D高斯泼溅因能摆脱以往单场景优化的弊端,训练、推理、测试在一个统一架构内而受到国内重视[3][6] - 该技术可实现百毫秒级别的实时性,这是以往重建算法难以达到的水平[6] - 该技术可与世界模型结合,通过生成+重建打造更优的闭环仿真能力[6] 行业培训课程核心内容 - 课程旨在全面讲解3D高斯泼溅技术栈,从原理到实战细致展开[3] - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等主流工具,附带基于3D Real Car训练模型的小作业[8] - 课程第二章深入3D高斯泼溅原理与算法,涵盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - 课程第三章聚焦自动驾驶仿真重建,解析Street Gaussian、OmniRe和Hierarchy UGP三篇核心工作,实战选用DriveStudio框架[10] - 课程第四章探讨3D高斯泼溅重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业界应用与学术前景[11] - 课程第五章专讲前馈式3D高斯泼溅,梳理其发展历程与原理,并讲解AnySplat和WorldSplat两篇最新算法工作[12] - 课程第六章为线上答疑讨论,涉及3D高斯泼溅岗位需求、行业痛点及开放性问题[13] 课程安排与面向人群 - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学与VIP群答疑结合模式[15] - 课程章节按计划解锁:第一章于12月1日解锁,第二章于12月7日解锁,第三章于1月7日解锁,第四章于1月21日解锁,第五章于2月4日解锁[15] - 课程面向具备一定计算机图形学、视觉重建、NeRF、3D高斯泼溅基础知识,以及概率论、线性代数、Python和PyTorch基础的学习者[17] - 学习者需自备GPU,推荐算力在RTX 4090及以上[17] - 完成课程可掌握3D高斯泼溅完善的理论知识及相关技术栈、算法开发框架,并能与学术界及工业界同行持续交流[17]
百度X-Driver:可闭环评测的VLA
自动驾驶之心· 2025-12-28 11:30
>>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 作者 | AIming 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1907444302092698547 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 VLA01 02系列中EMMA OpenEMMA都没有在闭环的场景下验证,其实很关键,因为开环和闭环评测根本不是一回事,开环的指标也并不靠谱,这个志琦大佬的文章 很早就讨论的这个问题: 那么前段时间,哈工大和百度的X-Driver:Explainable Autonomous Driving with Vision-Language Models 终于有闭环评测指标了,闭环因为要实际控车,所以这种闭环 指标才是衡量一个端到端方案的性能的更合理方案。今天继续来学习,看看闭环怎么做~ X-Driver Motivation 目前基于 MLLM 的框架难以进行闭环评估,在现实世界的驾驶场景中存在幻觉和缺乏稳定轨迹输出,现有的方案在闭环评估中的成功率仍然很低,因此把怎么把 ...
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 11:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 编辑 | 自动驾驶之心 "空间智能不仅是看清世界,更是理解世界是如何在三维空间中运作的。" —— 随着李飞飞(Fei-Fei Li)对 Spatial Intelligence 的定义深入人心,2025 年成为了自动驾 驶从"感知驱动"向"空间智能"全面转型的分水岭。 先回答第一个问题, 什么是空间智能? 广义上来说:空间智能是 对 空间信息 (位置、距离、方位、形状、运动、拓扑关系等)进行感知、表征、推理、决策与交互 的综合能力,是智能体(人类、机器人、自动驾驶系统)与物理世界交互的核心基础。其本质是将三维物理空间的复杂信息转化为可计算、可理解的模型,进而支撑 导航、避障、操作、场景理解等任务。 所以很多技术都可以和空间智能相结合,BEV感知、端到端、VLA、世界模型等等。 今天自动驾驶之心就和大家盘一下自驾领域内和空间智能相关的工作,主要分 为四大模块: 目前的空间智能还停留在表层,更多的是在做感知和表征层面的"智能" ,在深层次的推理决策和交互能力上仍 ...
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-28 11:30
自驾行业今年还是很精彩的,在整体下沉的关键节点,都很卷。卷技术、卷成本、卷效率。我们今年亦是如此,扩充了很多 B端的客户,也开始尝试从线上走向线下。C端也慢慢从普适性的能容逐渐专业化和精细化。 上半年不少自驾的同学转行去了具身,包括现在也是如此,L4/具身/无人机几个行业在大批量招人,而自驾又是相对成熟的 AI领域,所以自驾的算法人才非常受欢迎,几个头部企业的薪资很到位(大疆/宇树/智元/哈啰等等)。 下周就要迎来26年了,也到了年末盘点的时候。 搞过自驾的人,用过大集群,解过各种corner case,上下游协同能力强,这些都是其他几个行业所欠缺的。 今年,自驾的头部技术收敛到几个大方向上:一段式端到端、VLA、世界模型(重建+仿真)、强化学习。我们接触到的中 游厂商还在攻坚OCC、无图、多传感器融合感知等等,明年这些公司都有大量hc开放。 今年,自动驾驶之心的付费社区的成员正式突破4000人了。如果想看技术路线的发展、各类圆桌、研报、职位信息,可以多 来逛逛。 新的一年,也感谢新老粉丝的支持,我们为大家推出了众多福利优惠。新的一年大家再接再厉。 星球新人六折券,续费五折券 欢迎添加助理咨询活动 ...
想了很久,还是得招人一起把事情做大(部署/产品方向)
自动驾驶之心· 2025-12-27 17:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大家好,我是柱哥。最近收到很多小伙伴的咨询和求助,希望我们能够联系更多的技术专家分享业内最 新的动态和观点。L2智能驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突 破。后面我们将陆续为大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 联系我们 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 ...
Waymo最近的基座模型分享:快慢双系统端到端 & 世界模型仿真
自动驾驶之心· 2025-12-27 17:36
早上看到waymo最新的基座模型分享,柱哥抓紧解读了下,核心信息: 基本上可以断定waymo在follow国内的快慢双系统端到端方案,和理想的E2E+VLM以及小 鹏VLA2.0有相似之处。 在Waymo,我们正通过将"可验证安全的人工智能"置于核心优先级来攻克这一挑战——安全是我们从底层设计模型与人工智能生态系统的核心准则。由此,我们打 造出了一套极其先进的人工智能系统,已实现大规模安全落地于物理世界。截至目前,我们的完全自动驾驶里程已远超1亿英里,在运营区域持续提升道路安全性 ——与人类驾驶员相比,严重事故发生率降低了十倍以上。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 现在,我们邀请你走进这一技术核心。本文将详细解析Waymo的人工智能战略,以及该战略如何为我们注入发展动力,让安全的自动驾驶服务以史无前例的速度惠 及更多用户。我们将拆解这套以Waymo基础模型(Waymo Foundation Model)为核心的整体人工智能方案,该模型支撑起统一的可验证安全人工智能生态系统,进 而实现加速、 ...
没有好的科研能力,先别想着毕业去业界搞自驾了......
自动驾驶之心· 2025-12-27 10:07
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 柱哥周末和几位做自驾招聘的朋友聊天,说到现在市场上高端的自驾人才仍然非常抢手。 几家新势力还有头 部的Tier 1,硕士已经开到70的年包争抢人才(非天才少年、未来星等顶级岗位)。 很多同学,尤其是在工业 界参与过预研岗位的同学,还没毕业就已经被公司内定了。但其实要求不是很高,那就是"具备完整的科研能 力",能对应完成和思考相应工作。如果缺乏这个,不敢轻易推荐给企业。 完整的科研能力代表能发现问题、定义问题、提出解决问题的方法、能形成方法论输出观点。这并不是简单的 读论文,很多同学都错判了这点。 老师放养,不熟悉自驾方向,需要自己一点点调研,没人指导; 入门了能看懂论文,但不知道领域的痛点、难点,; 没有算力,没有数据、没有改进方向一直原地打转; 实验不知道如何设计,做不出效果,缺乏解决问题的能力; 不知道怎么写论文; ...... 提供的服务 中稿率很高哦! 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预 ...
最近的蔚来,让人倒吸一口凉气
自动驾驶之心· 2025-12-27 10:07
以下文章来源于雷峰网 ,作者马广宇 雷峰网 . 洞见智能未来,共与产业变迁 作者 | 马广宇 来源 | 雷峰网 原文链接: 最近的蔚来,让人倒吸一口凉气 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 " 既意外,又不意外。 " 蔚来触底反弹来的如此干脆,出乎了很多人的意料 —— 仿佛一场蓄谋已久的暴风雨,雷霆般地洗掉了那些重到化不开的质疑迷雾。 今年初, 市场还在用那些阶段性的片面数字不停地拷问蔚来;转眼间,蔚来已以一系列凌厉的战术转身、技术突围与组织焕新,撕掉了旧标签。 速度之快,效率之高,效果之显著,不仅令整个行业侧目,更让诸多业内人士也倒吸一口凉气。 01 全新ES8的"饱和式交付" 12 月 18 日,蔚来全新 ES8 的交付正式突破 3 万台,创造了 40 万元以上纯电车型交付破三万的最快纪录,并向着 4 万台迈进。 对蔚来而言,这份成绩来之不易。从年初的最具挑战财务报表,再到每个季度的盈利拷问,蔚来面临的质疑从未停止,而这份质疑,也变成了李斌 " 内修武 ...
哼哧哼哧搞了小半年,小结一下这段时间世界模型的学习成果
自动驾驶之心· 2025-12-27 10:07
本文只做学术分享,如有侵权,联系删文 哼哧哼哧搞了小半年,小结一下这段时间的学习成果。 什么是世界模型? 值得注意的是,世界模型不是一个具体的模型或者范式。实际上有好几个不同方向的都管自己叫世界模型。差不多是各说各的,因此大家在阅读文章时需要仔细辨 析。 World model 的流行要归功于Jurgen2018年的world .其对world model的定义是" a mental model of the world", 即世界在大脑中的映射。更具体一点是 作者 | cloud erow 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1943329007706805619 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the worl ...