Workflow
自动驾驶之心
icon
搜索文档
搞自驾这七年,绝大多数的「数据闭环」都是伪闭环
自动驾驶之心· 2025-12-29 17:17
作者 | 李众力 编辑 | 自动驾驶之心 原文链接: https://www.zhihu.com/question/552466858/answer/1973504909879030493 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 2025 年年底了,我也来回答一下。 先说结论: 据我能接触到的一圈国内玩家,大家嘴里的"数据闭环",绝大多数还是各个算法团队内部的"小闭环",离当年 PPT 里畅想的那种"数据直接解决问题"的 大闭环,还有好几层台阶。 先简单说下我自己的背景(方便大家判断我是不是在瞎说) 我从事自动驾驶行业大概 7 年多了,从最早那种"开完车工程师拎着硬盘,从工控机上拔下来,抱着去机房拷数据"的年代一路干到现在。 这几年主要在一家 互联网大厂的物流无人车项目 里,从封闭园区到高速公路再到城市公开道路,从载人到拉货都有涉及,负责整车的数据体系和质量体系搭建,带 团队做的事情大致包括: 日常工作基本就是跟各种 log、Trigger、标注平台、仿真平台 ...
为什么世界模型对行业产生了这么大的影响?
自动驾驶之心· 2025-12-29 17:17
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型的愿景是理解并改变物理世界,核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力。 2025年6月yann lecun发布V-JEPA 2,2025年8月DeepMind发布Genie 3,2025年11月李飞飞发布Marble。 而在自动驾驶领域,关于世界模型的探索也一直没有停止。最常见的方向是 视频生成 ,也是学术界和工业界探索最多的领域,像wayve的GAIA-1/2/3,上交 CVPR'25的工作UniScene等等。其次是 OCC生成 ,比较经典的有OccWorld、OccLLaMA,还有租金西交最新的SOTA工作II-World。还有一个领域是做 Lidar点云生 成 ,或者视觉和点云的联合生成,比如LiDARGen、LiDARCrafter等等。 不少公司基于这些开源算法搭建自己的云端/车端世界模型,用于长尾数据生成或者闭环仿真/评测。一些公司也在尝试基于世界模型直接赋能车端驾驶能力。 但世界模型的定义仍然很模糊,生成 = 世界模型? 生成 + 重建 = 世界模型。 对 ...
从自驾到具身:更现实的商业化路线不是一直等「完美单体」
自动驾驶之心· 2025-12-29 11:19
这两年"具身智能"很热。热到一个现象越来越常见:一提具身智能,很多人脑子里立刻浮现人形机器人;一谈商业化,讨论就自动切换到"什么时候能有一台全能保 姆机器人走进千家万户"。仿佛只有等到单体足够通用、足够聪明、足够可靠,而且最好完全无人,才配谈规模化。 但如果把镜头从"单体能力"挪到"商业路径",会更容易看到另一条更现实的路线: 具身智能的第一波商业化,很可能不会等到完美单体,而会像自动驾驶一样,先把 一套体系跑通,再让单体在运营中持续变强。 所谓"体系",不是一句口号,而是一套可复制的链路:现场有能动手的物理执行单元,大部分时间自动完成高频流程;少数关键卡点允许远程短时介入兜底;云端提 供更强的模型能力(VLA/多模态/规划与质检),按需付费、持续升级;全流程可审计、可追责、可复盘;数据回流反哺模型与流程,让远程介入越来越少、越来越 短;最终提升一个人覆盖多个智能体的能力(NVM),把成本摊薄到商业化成立的区间。 把这条链路看清楚,再回头看"从自动驾驶到具身智能",会发现变化的不是"有没有人形",而是同一套方法论在扩场景:从"开车"扩展到"干活",从"道路"扩展到"家 庭、楼宇、园区、城市服务",从"车辆"扩 ...
比亚迪组织架构地震!撤销第13事业部......
自动驾驶之心· 2025-12-29 11:19
来源 | 焉知汽车 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 12月27日,比亚迪 集团启动新一轮组织架构优化, 核心变革聚焦汽车事业群,原第十三事业部正式 撤销,其模具与车灯业务分别划归汽车工程研究院 (L1事业部级)及第十一事业部(L1事业部级)。 同步落地的人事任免与事业群体系重构,标志着比亚迪在组织效率提升与资源整合上迈出关键一步,旨 在进一步巩固其在新能源汽车领域的领先地位。 调整细节:剥离非核心职能,强化垂直管理 此次调整的核心是对原第十三事业部的拆分重组。公开资料显示,第十三事业部前身为2005年成立的 弗迪精工,长期聚焦汽车零部件研发与制造,核心业务包括模具设计制造(覆盖整车冲压、焊接等工艺 模具开发)、车灯及注塑配件生产(含矩阵式LED大灯、贯穿式尾灯等)、轨道交通零部件(如云轨减 震组件)。 调整后,其模具业务划归汽车工程研究院(L1事业部级),车灯业务则整体并入第十一事业部(L1事 业部级)。值得关注的是,第十一事业部原本负责整车冲压、焊接 ...
研二上就要结束,快的人已经在准备实习了~
自动驾驶之心· 2025-12-29 11:19
这一年接触到了很多有科研需求的同学,主要有以下几个难题: 最快的提升方法则是跟着一个有经验的researcher一起工作,自动驾驶之心前面推出了1v1科研辅导业务,也欢 迎大家咨询了解。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近期末,有同学联系柱哥咨询明年暑期实习的事情,还比较发愁,一年半了到现在还没什么积累。后面还有 毕业小论文和大论文的事情,现在觉得时间有些紧迫感了。 这个时间点是有些尴尬的,研二下学期要做的事情会堆积在一起,尤其是研究生只有两年的同学。最近有几个 小论文已经投出去或发表的同学,柱哥也顺利的帮他们内推到了自驾的一些公司。这些公司的 要求其实并不 高,那就是"具备完整的科研能力",能对应完成和思考相应工作。如果缺乏这个,不敢轻易推荐给企业。 完整的科研能力代表能发现问题、定义问题、提出解决问题的方法、能形成方法论输出观点。这并不是简单的 读论文,很多同学都错判了这点。 主要辅导方向 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨 ...
市场正在惩罚只懂理论的端到端算法工程师......
自动驾驶之心· 2025-12-29 09:07
行业人才供需现状 - 中游车企和Tier1供应商正积极投入人力和资源跟进端到端自动驾驶技术,表明行业需求旺盛[1] - 市场面临算法人才短缺,面试候选人往往只懂部分技术或停留在论文层面,缺乏量产经验和优化能力[1] - 端到端岗位薪资很高,但缺乏能力相匹配的算法人才,凸显了高端技术人才市场的供需失衡[1] 核心技术栈 - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当下端到端自动驾驶落地最重要的技术栈[1] - 行业主流趋势是感知任务的合并与规控算法的学习化,如何高效合并感知任务和设计学习化规控模块成为各大公司核心技能[6] 课程核心内容与结构 - 课程为期三个月,包含七个实战项目,聚焦量产应用,从实战到落地层层展开[1] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等[1] - 课程大纲共八章,系统性地从概述、两段式/一段式框架、导航应用、强化学习、轨迹优化、兜底方案到量产经验分享[4][6][7][8][9][10][11][12][13] 技术方案详解 - 两段式端到端框架涉及感知与规划控制的信息传递,其优缺点将被详细分析,并通过经典的PLUTO算法进行实战[7] - 一段式端到端框架可实现信息无损传递,性能上优于两段式方案,课程将学习基于VLA、Diffusion等多种方案,并深入VAD系列[8] - 导航信息在自动驾驶中起引导、选路、选道作用,课程将介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式[9] - 纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,课程将重点介绍强化学习算法及其训练策略[10] - 轨迹输出优化项目将实战基于模仿学习的算法,重点介绍扩散模型和自回归算法,并在监督微调后结合强化学习[11] - 量产兜底方案采用时空联合规划,通过轨迹平滑优化算法保证输出轨迹的稳定可靠,涵盖多模态轨迹打分搜索与平滑算法[12] 课程实施与要求 - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年11月30日[14] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习与扩散模型理论基础,以及Python、PyTorch和MMDet3D框架使用能力[16] - 学员需自备GPU,推荐算力在RTX 4090及以上[16] - 课程计划于11月30日开课,按周或双周解锁新章节,预计三个月结课[14][15][17]
AI Day直播 | 如何解决特斯拉提出的端到端三大挑战?
自动驾驶之心· 2025-12-29 09:07
特斯拉端到端自动驾驶架构的核心挑战 - 特斯拉在ICCV2025分享中提出了自动驾驶面临的三大核心挑战:维度灾难、可解释性和安全保证、闭环评测 [3][6] - 行业围绕这三大难题探讨了多种可能的解决方法 [3] 相关学术研究进展 - 研究提出了UniLION模型,旨在构建统一的自动驾驶模型,采用线性组RNN [3] - 研究提出了DrivePI模型,这是一个空间感知的4D MLLM,用于统一的自动驾驶理解、感知、预测和规划 [3] - 研究提出了GenieDrive模型,致力于构建具有4D占据引导视频生成能力的物理感知驾驶世界模型 [3] 技术分享与行业探讨内容 - 分享将详解特斯拉端到端技术路线的变迁以及FSD V14的具体内容 [6][13] - 分享将针对端到端架构的三大挑战,详细解析UniLION、DrivePI、GenieDrive等解决方案 [6][13] - 分享将探讨能够理解并与物理世界互动的通用人工智能的形态 [6][13] - 行业内部存在学术与量产的分歧,以及技术路线的持续较量 [14] - 行业正在深入探讨谁在定义自动驾驶下一代方案,例如VLA与WA的对比 [14] 行业活动与知识获取 - 通过直播和知识星球“自动驾驶之心”可获取更深入的自动驾驶技术内容,包括学习路线、技术细节、QA及未公开内容 [1][2][14] - 行业举办“硬核夜话”活动,与一线量产专家深入探讨自驾数据闭环工程 [15]
世界模型和数字孪生的本质是什么?怎么赋能自动驾驶?
自动驾驶之心· 2025-12-29 09:07
世界模型与数字孪生概述 - 自动驾驶领域的研究离不开世界模型和数字孪生,核心目标是为感知模型构建虚拟训练环境并缩小其与真实世界的差距[5] - 世界模型的本质目的是理解世界动态并预测未来场景,所有研究路径均以此为核心共识[7] - 数字孪生的作用是在虚拟世界中定义自动驾驶车群的各个环节与要素,通过自由切换时空来低成本、高效率地研究关键技术,从而驱动现实世界技术的发展与落地[19] 世界模型的定义与发展 - 世界模型存在概念泛化问题,当前定义的核心是以视频为底座的“时空认知”,需要大量视频数据,游戏是重要的训练数据来源[7] - 研究分为两大分支:“内部表示”学派用潜在变量建模环境以辅助决策,“未来预测”学派生成真实视频并转向具身交互[7] - 具身环境的世界模型正从单纯模拟视觉动态,转向构建包含空间结构和物理交互的沉浸式环境,以为智能体提供全面学习平台[8] - 世界模型的发展历程包括:心理学起源(1971)、Ha等人首次系统构建(2018)、LeCun的JEPA框架(2022)、LLMs的隐性世界知识(2023)以及OpenAI的Sora实现显性模拟(2024)[10] 世界模型的核心要求与应用方向 - 世界模型需具备物理一致性、多尺度时空建模(从毫秒到分钟,从厘米到公里)以及因果推理能力[11] - 三大核心应用方向包括:作为基础模型的预训练方式、用于仿真和数据生成以补充真实数据不足、以及进行端侧推理以实现实时环境变化预测[11] - 在自动驾驶中,世界模型需要实时感知路况并准确预测其演变;在机器人技术中,则对导航、物体检测和任务规划等任务至关重要[11] 世界模型的技术路径与场景构建 - 3D高斯可能是最有前景的表征方式,但需解决核函数优化问题;神经辐射场(NeRF)与动态建模的组合也值得探索;分层建模可为不同目的服务[12] - 室内环境构建从纯视觉发展到多模态、社交交互及LLM驱动指令生成;室外环境构建早期通过检索3D资产,突破性进展包括使用3D生成模型构建可定制城市(如UrbanWorld)和程序生成的沙盒环境(如MineDOJO)[12] - 动态环境构建实现革命性转变,从静态预定义环境转向生成式模型实时动态模拟,代表工作有UniSim、Pandora和Streetscapes[12] 自动驾驶中世界模型的应用形态 - **学习隐式表示**:通过感知数据在潜在空间构建世界状态的抽象表征,将多模态输入转化为几何/语义空间以预测交通参与者未来轨迹与行为,技术演进从PointNet、CNN到Transformer多摄像头BEV融合及多模态LLM应用[16] - **世界模拟器**:直接生成车辆感知数据(如视频、3D占据网格)以模拟未来世界状态,传统几何空间模拟存在信息丢失、计算昂贵等局限,视频生成方案(如扩散模型GAIA-1/DriveDreamer)能直接生成逼真相机数据并支持文本控制[16] - 数据的表示形态包括图像/视频(如GAIA-1生成多视角驾驶视频)和BEV鸟瞰图(如BEVWorld统一感知-预测-规划)[16] 自动驾驶中世界模型的具体应用与车企落地 - 主要优势在于生成罕见场景(Corner Case),以降低实车路测成本,案例如MagicDrive3D实现可控3D场景生成,DriveDreamer-2用LLM增强多样性[17] - 支持端到端驾驶,如BEVWorld通过统一潜在空间整合感知、预测和规划,实现端到端优化[17] - 交通场景模拟可在几何空间、视频空间(基于扩散的视频生成模型)和3D空间(如OccWorld预测3D占据网格)中进行[17] - 车企落地情况:蔚来有NWM世界模型提供仿真闭环训练环境;小米有ORION框架集成仿真工具链;Wayve有GAIA-1生成式世界模型支持多模态条件[17] 数字孪生的层次与相关技术 - 数字孪生体现在多个层次:物理世界建模/数字化(将现实世界映射到虚拟空间)、模型迭代(利用虚拟环境数据训练感知模型)以及系统迭代(在仿真软件中研究系统并找出解决方案)[20][21] - 相关技术包括:3D占用网格(如OccSora)、点云预测(如Copilot4D预测雷达点云变化)、混合表示(如MaskGWM结合视频掩码重建)、利用LLM进行场景理解(如TOKEN将交通场景标记为对象级知识)以及运动预测(如Trajectron++预测多智能体轨迹)[22] 倾斜摄影三维重建流程 - 流程包括:图像预处理(畸变校正、曝光均衡)、空中三角测量(解算图像精确内外参)、密集匹配(生成高密度点云)、网格构建(生成三维几何网格模型)、纹理映射(生成纹理逼真的三维模型)以及模型优化与输出[23][24][25][26][27] MVSNET技术流程 - 流程包括:输入准备(接收多幅图像及相机参数)、特征提取(用CNN提取像素级特征)、代价体构建(计算特征相似度构建三维代价体)、代价体正则化(用3D卷积网络滤波)、深度图回归(计算深度概率分布生成深度图)以及后处理(优化深度图)[30][31][32][33] NeRF技术原理与演进 - NeRF用一个连续的体积函数表示3D场景,输入3D坐标和视角方向,通过训练神经网络预测点的颜色和密度,并使用体积渲染公式合成新视角图像[34][36] - 原始NeRF训练慢、渲染慢、内存占用大,后续改进包括:Instant-NGP+使用哈希编码将训练速度提升100倍;Mip-NeRF+解决抗锯齿问题;Block-NeRF+支持城市级大场景;D-NeRF+支持动态场景[37] - 与MVSNET区别:MVSNET是显式几何流水线,先生成点云/网格再渲染;NeRF是隐式场方法,直接学习连续函数并可通过体渲染生成任意视角图像[39][40][41] - 在跨场景泛化方面的改进工作包括:代价体编码(如MVSNeRF)、点云特征外挂(如Point-NeRF)、使用注意力机制聚合多视图(如IBRNet)、引入2D大模型先验(如DreamFusion)以及元学习/预训练流程(如Meta-NeRF)[44][45][46][48][50] 3D高斯溅射(3DGS)技术原理 - 核心思想是将三维场景显式地建模为数百万个可学习的3D高斯基元,每个基元包含位置、协方差(决定椭球形状)、不透明度和视角相关颜色(用球谐系数表示)等参数[52][53] - 基本流程:用COLMAP做SfM初始化稀疏点云和高斯球;进行视锥剔除;通过可微分投影将3D高斯变换到2D;采用分块光栅化(Tile-based splatting)按深度排序并行渲染;计算损失并反向传播优化所有参数;通过自适应密度控制(克隆、分裂、剪枝)来增删基元[57][58][59][60][61][62][63][64] - 自适应增删基元的依据:增基元依据梯度反馈、几何特征和多视角一致性;删基元依据全局重要性评分、多视角一致性和几何特征;通过克隆、分裂、直接删除或软剪枝等方式实现,并周期性执行以保持优化稳定性[71][72][74][75][76][77][79][80][82][83][85] 3DGS在自动驾驶领域的应用 - **高精度场景重建**:AutoSplat框架通过物理约束优化实现高度逼真的自动驾驶场景还原;GaussianOcc通过全自监督3D占用估计技术,在无LiDAR标注下使占用预测精度比传统方法提升15%-20%;LumiGauss解决极端光照场景重建失效问题;EGSRAL可实现大规模驾驶场景的自动化3D重建与语义标注[88][89][90][91] - **感知能力增强**:DepthSplat实现3DGS与深度估计的直接联动,可修正LiDAR因遮挡导致的深度误差,使对弱势交通参与者的深度估计误差降低至5厘米以内;3DGS与SLAM融合可实时区分静态背景与动态物体,使定位误差从传统SLAM的0.5米降低至0.1米以内[92][93] - **动态场景建模**:DrivingGaussian专为环视相机设计,采用分区域高斯建模策略,实现360°全方位动态场景重建;GaussianCity通过高斯点分层存储与动态加载技术,将城市场景重建速度提升60倍,可实现平方公里级区域的实时建模[94][95] - **仿真闭环**:3DGS通过高保真场景生成与实时交互,为自动驾驶算法迭代构建更真实的数字孪生仿真环境[97] - **动态场景建模技术**:S³Gaussian采用自监督学习,通过时空场网络和多头高斯解码器实现无需标注的动态场景分解;DrivingGaussian采用增量静态高斯和复合动态高斯图的分层建模策略,并通过引入LiDAR先验使静态背景重建误差降低40%[98][100][102]
理想汽车又一核心骨干将离职
自动驾驶之心· 2025-12-28 17:23
核心观点 - 理想汽车近期进行了一系列组织架构调整和高管变动 旨在回归创业公司管理模式以提升效率应对市场竞争压力 但公司正面临转型困难与销量不及预期的困境 [2][4][5] 高管变动与组织架构调整 - 理想汽车第二产品线总裁张骁将于近期离职 张骁于2016年5月加入 是早期核心员工 深度参与了理想ONE、L9等车型的产品定义 并带队完成了理想i8的造型方案调整与产品设计优化 [2][4] - 张骁离职可能是为了创业 近期汽车行业高管创业消息屡见不鲜 [4] - 理想汽车近期对供应链相关部门进行了组织架构调整和合并 将原智能汽车群组下属的“零部件集群”并入“制造” 由副总裁李斌管理 原零部件部门负责人罗屏已离职 [2] - 理想汽车在九月份对自动驾驶部门进行了大调整 从3个核心研发大团队拆分为11个二级部门 全部向高级副总裁郎咸朋汇报 同时取消了大规模“封闭开发” [5] 公司运营与战略 - 接近年末的集中调整 是理想汽车将全面回归创业公司的管理模式的具体行动 [4] - 近期多次组织架构调整旨在提升公司效率与活力 但也反映了市场竞争的压力 [4] - 在转型的关键阶段 理想面临的困难可能是始料未及的 [4] 产品销售与市场表现 - 理想汽车将2025年全年的销量目标从年初设定的70万辆下调至64万辆 [4] - 2025年前十一个月总销量约为36万辆 [4] - 2025年1月至11月各月销量分别为:1月29,927辆 2月26,263辆 3月36,674辆 4月33,939辆 5月40,856辆 6月36,279辆 7月30,731辆 8月28,529辆 9月33,951辆 10月31,767辆 11月33,181辆 [5] - 作为理想进入纯电SUV领域的首款车型 i8延期一年上市 [4] - 有观点认为理想i6产品力很强 但公司的困境预计还将持续一段时间 内部正在积极应对调整 [5]
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 17:23
DiffusionDriveV2模型整体架构 - 模型是一个用于端到端自动驾驶的强化学习约束截断扩散模型,整体架构包括环境编码、轨迹规划、模式选择等模块 [3] - 环境编码部分融合了来自摄像头和激光雷达的BEV特征以及自车状态信息,其中BEV特征经过上采样和下采样处理,自车状态通过编码器处理,两者拼接后作为后续处理的键值对 [5][6] - 解码部分参考了目标检测中的DETR思想,使用查询机制,输出被分割为轨迹查询和智能体查询,用于后续的轨迹规划和交互 [7] 轨迹规划模块核心技术 - 轨迹规划模块利用多尺度BEV特征,通过上采样和特征拼接,增强空间信息的利用 [8] - 采用基于锚点的扩散模型进行轨迹生成,首先通过K-Means聚类从真实轨迹数据中生成一系列轨迹锚点,然后在锚点上加入经过设计的高斯噪声以启动扩散过程 [9][10][11] - 将带噪声的轨迹锚点通过位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询特征以及自车查询特征进行多轮交叉注意力计算,以融合多源信息 [12][13][14][15][16][17] - 融合后的轨迹特征通过一个前馈网络,并利用时间特征进行尺度和偏移调制,最终预测出分类分数和去噪后的轨迹偏移量,该偏移量与原始噪声轨迹相加得到最终预测轨迹 [18][19][20][21][22] 模式选择与轨迹评估机制 - 模型包含一个模式选择器,用于从多个生成的轨迹模态中做出最终决策 [23] - 在轨迹生成(反向去噪)过程中,记录网络所有中间去噪结果以及最终输出 [25] - 使用一个综合评分器对生成的所有模态轨迹进行评估,评分维度包括安全性、舒适性、规则遵守、进度和物理可行性,并通过加权平均计算综合分数 [27] - 安全性检查包括碰撞检测和驶出道路判断,舒适性评估加速度和曲率连续性,规则遵守评估交通灯和车道保持,进度评估是否到达目标,物理可行性检查动力学约束 [27] 强化学习训练与优化策略 - 提出锚点内GRPO强化学习优化方法,在每个轨迹锚点对应的组内进行策略优化,以保持多模态能力同时提升轨迹质量,其损失函数涉及对去噪过程概率的对数求和与优势函数的加权 [28] - 优势函数通过计算组内奖励的相对均值和标准差进行估计,无需额外价值模型,并且通过只保留优于真实轨迹的样本进行对比学习来定义“好”的轨迹 [28][29] - 对优势函数进行截断处理,将所有负优势设为0,并对发生碰撞的轨迹施加-1的强惩罚,以提供清晰一致的学习信号 [30] - 在训练损失中结合了强化学习损失和模仿学习损失,以防止过拟合并保证通用驾驶能力 [39] 噪声设计与损失函数 - 针对轨迹近端与远端尺度不一致的问题,创新性地提出使用乘性高斯噪声替代传统的加性噪声,通过一个纵向和一个横向的乘法噪声因子来调整轨迹点,从而保持探索轨迹的平滑性和结构完整性 [33] - 在训练阶段引入探索噪声,在验证阶段使用确定性推理,并详细计算了每一步噪声对应的对数概率 [37][38] - 总体训练损失由轨迹恢复损失和分类置信度损失两部分组成,通过权重系数进行平衡 [42] - 轨迹恢复损失采用L1损失函数,分类损失使用带权重的焦点损失函数 [41][43]