Workflow
自动驾驶之心
icon
搜索文档
搞自驾这七年,绝大多数的「数据闭环」都是伪闭环
自动驾驶之心· 2025-12-29 17:17
文章核心观点 - 截至2025年底,自动驾驶行业所宣称的“数据闭环”大多仍停留在各算法团队内部的“小闭环”,距离理想中“数据直接解决问题”的“大闭环”仍有数层台阶之遥 [1] 数据闭环的理想标准 - 真正的数据闭环至少需满足三层标准:问题发现自动化、解决效果可量化可复盘、投入产出可评估 [4][5] - 问题发现应实现从线上问题自动归类、构建数据集、进入训练/仿真、产出候选方案到自动评估效果的全流程自动化,人的角色主要是定义目标和拍板 [4] - 系统需能持续追踪新版本上线后,特定问题的发生频率是否下降,以及是否引入了新的负面问题 [7] - 需要设计并落地一套从车端实时触发到云端历史数据挖掘、仿真评价的代码级统一的触发器(Trigger)体系 [5] - 目标是将每一次急刹车、接管或奇怪行为都结构化、可计算,减少主观判断 [5] 行业现状与主要断点 - 目前多数厂商的“数据闭环”实质是“数据驱动的研发流程加一些自动化工具”,且局限在单个算法团队的小视角 [8] - 一个典型流程包括:各模块定义Trigger捞取数据、清洗标注、训练回归、上线监控,但这更多是模块级、算法视角的小闭环,而非系统级闭环 [9][13] - 主要断点之一:问题发现多为“被动闭环”,依赖司机反馈、运营投诉或人工刷录像,而非系统从海量数据中自动发现异常,是“问题驱动数据”而非“数据自动发现问题” [10][14] - 主要断点之二:问题归因困难,同一现象(如急刹)背后常是感知、预测、规划、控制等多模块高度耦合的原因,缺乏体系化诊断工具,导致责任划分不清 [12][15] - 主要断点之三:数据到方案的链路常止步于“数据到模型”,即只关注离线技术指标提升,缺乏对解决了哪个真实线上问题以及业务价值的追踪 [16] - 主要断点之四:“自愈”程度有限,从问题收集、标注、训练、评估到上线的全流程中,人工干预仍占大头,系统更像高度自动化的生产线而非能自我决策的“自愈系统” [17][21] - 主要断点之五:组织结构(如各算法团队、Tier1、整车厂各有各的OKR和边界)本身成为闭环的断点,导致系统层面难以协同 [18][22] 作者实践的数据闭环体系 - 体系设计理念激进,将“数据当产品、指标当第一公民”来设计 [24] - 整体思路:从“体感指标”出发,用Trigger将世界离散成token,再用LLM进行分类和路由,最后用统一代码串联发现与验证 [25] - **从体感指标出发**:将用户有感的体感指标(如急刹、接管次数)作为“第一公民”,要求100%记录,并放弃“拷盘式”上传,采用类似互联网埋点的事件上报方式 [26][27][29] - **车端Trigger机制**:在算力受限(仅一颗Orin X)条件下,采用高召回、极低开销的micro log/mini log机制,车端先以轻量Trigger打包疑似事件数据(micro log),云端二次确认后,再触发上传更详细数据(mini log) [30][32][33][34][35] - **定制化数据拉取**:问题经人工初分或LLM分类后,会根据责任团队(如规控、感知、硬件)定制化下发任务,拉取所需细粒度数据(如规划轨迹、原始传感器数据、CAN报文),而非简单记KPI [36][40] - **代码级统一**:实现了车端数据挖掘、云端历史数据挖掘、仿真验证评价的Trigger逻辑代码级统一,确保从问题定义到验证评估的语义一致,避免实现偏差 [41][44] - **问题自动分发**:构建了领域专用tokenizer(Trigger)加classifier(LLM)的两阶段架构,Trigger将原始多模态时序信号编码成离散token序列,再文本化后交由LLM进行时序分类和路由 [43][45][47][48] - **弱监督在线学习**:利用研发人员在问题管理系统中的真实“改派行为”作为弱监督标签,持续优化LLM分类器,形成在线学习闭环 [49][53] - **Trigger框架统一与易用性**:所有Trigger逻辑用纯Python实现且跨平台可跑,通过提供结构化文档和示例,并利用LLM辅助生成代码,降低编写门槛,让测试、运营等非算法同学也能参与 [50][54][55] - **量产环境解耦**:将数据挖掘Trigger与线上主算法版本解耦,挖掘逻辑可作为“配置”或脚本通过云端下发,在车端沙箱中执行,从而灵活应对突发场景(如大雪天)而不必等待整车版本更新 [56][57][59] - **动态控制挖掘行为**:云端对挖掘任务进行动态启停控制,当数据量足够覆盖必要场景分布后,自动关闭或降采样,避免数据重复和资源浪费 [59] 数据标签与检索策略 - 严格区分“世界标签”(客观物理世界/场景属性,如天气、道路类型)和“算法标签”(算法中间结果/表现,如检测框抖动),前者用于精细筛选和分布分析,后者用于归因与调参 [60][61] - 向量检索不适合作为海量存量数据的粗筛主力,因其召回成本高、语义易受训练分布影响且长尾场景易被淹没,更合理的做法是先利用结构化标签规则过滤掉80%-90%无效数据,再在缩小的子集上用向量检索进行语义级精筛 [62][63][64] 生成式与仿真数据的定位 - 生成式/仿真数据主要用于补充现实中难以凑齐的长尾场景训练(如路上的锥桶、路面坑洼),以扩大模型“见世面”并提升召回,但不能替代真实评测 [65][66][67][68] - 最终用于评测和放行的评测集坚持只使用真实数据,因为无法证明仿真完全模拟了真实世界 [69] - 警惕生成式数据提升召回时可能引入误检(FP)副作用,由于评测集难以完全覆盖FP,可能导致线上模型“到处乱看东西” [70][71][72][73] - 采用版本间逐帧全量差异分析来监控副作用:对两个版本在同一批真实数据上的感知结果进行全量比对,先不争论真值对错,而是分析差异模式(如哪些距离段、类别下差异激增),结合人工抽查判断是召回提升还是误检泛滥,确保“涨得干净” [74][75][76][78][79] 未来展望与挑战 - 当前体系更接近“Bug-Driven开发体系”,推动迭代的核心是具体bug的发现、量化和跟踪 [77][80] - 当前主要卡口已从“发现问题”侧转向“解决问题”侧,受限于研发人力带宽、标注成本以及仿真验证能否代表真实世界等挑战 [81][82][83] - 两个乐观方向:端到端/模仿学习架构兴起,其更直接对齐人类驾驶行为,绕开部分中间真值标注难题;闭环仿真/世界模型快速发展,旨在让仿真环境更接近真实世界,以支撑大规模自动化验证 [84][87] - 未来需降低解决一个bug的边际成本,并让端到端等方法在验证和安全上更可控,结合现有工程实践积累,才能使“数据驱动”从口号变为可持续运行、能算账、可规模化复制的基础设施 [85][88]
为什么世界模型对行业产生了这么大的影响?
自动驾驶之心· 2025-12-29 17:17
世界模型在自动驾驶领域的愿景与探索 - 世界模型的愿景是理解并改变物理世界,其核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力 [2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成、OCC生成以及Lidar点云生成或视觉与点云的联合生成 [3] - 许多公司基于开源算法搭建云端或车端世界模型,用于长尾数据生成或闭环仿真与评测,部分公司正尝试基于世界模型直接赋能车端驾驶能力 [4] 世界模型的技术定义与学习挑战 - 世界模型的定义尚不清晰,存在“生成即世界模型”与“生成加重建即世界模型”等不同理解,导致新入行者容易混淆 [5] - 对于初学者而言,理解世界模型并完成数据生成、闭环仿真等后续任务非常困难,部分从业者甚至花费半年时间仍难以有效入门 [6] 自动驾驶世界模型课程概述 - 该课程由自动驾驶之心平台联合工业界算法专家Jason推出,旨在从原理到实战帮助学习者掌握自动驾驶世界模型领域,是国内首个《世界模型与自动驾驶小班课》 [6][8] - 讲师Jason拥有C9本科与QS50博士学位,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的产品量产交付 [8] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [20] 课程大纲与核心内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派及其在业界解决的问题与所处环节 [11] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [11][12] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,深入讲解Marble、Genie 3、JEPA、导航世界模型、DriveVLA-W0及特斯拉的世界模型模拟器等模型的核心技术与设计理念 [12] - **第四章:基于视频生成的世界模型** 聚焦视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上交的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [13] - **第五章:基于OCC的世界模型** 聚焦OCC生成类算法,涵盖三大论文讲解与一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [14] - **第六章:世界模型岗位专题** 分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [15] 课程技术细节与学习收获 - 课程背景知识部分将详细讲解Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS,以及其他生成式模型如VAE、GAN等 [17] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交最新的II-World等工作 [18] - 学完本课程后,学习者预期能达到约1年经验的自动驾驶世界模型算法工程师水平,掌握技术进展,对BEV感知、多模态大模型等关键技术有更深刻理解,并可复现II-World、OpenDWM等主流算法框架 [19] 课程安排与参与要求 - 课程章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [21] - 学习本课程需要自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、了解Transformer大模型等基本概念、拥有概率论与线性代数基础以及Python和PyTorch编程能力 [19]
从自驾到具身:更现实的商业化路线不是一直等「完美单体」
自动驾驶之心· 2025-12-29 11:19
文章核心观点 - 具身智能的商业化路径将效仿自动驾驶,不追求单体完美,而是优先建立一套可远程介入、云端赋能、数据闭环的运营体系,通过提升单人对多智能体的覆盖能力(NVM)来摊薄成本,实现规模化 [2][3][37] 从自动驾驶到具身智能的方法论迁移 - 方法论正从“开车”扩展到“干活”,从“道路”扩展到“家庭、楼宇、园区、城市服务”,从“车辆”扩展到各种机器人与物理执行单元 [3] - 无人物流车/无人配送车是先行案例,其关键是将驾驶改造为“按需插针的远程服务”,通过减少远程介入频次和时长,提升单人覆盖车辆数(人车比),从而降低单位成本 [4] - 规模化收益不仅来自车辆更智能,更来自运营体系摊薄成本,这套模式将迁移到更广泛的物理世界任务中 [5] 具身智能的商业化核心与形态选择 - 商业化先看成本结构、稳定交付、风险边界和责任治理,而非形态是否像人 [7] - 真实世界的长尾问题需要通过流程化与治理化来解决,包括远程介入的触发条件、权限、审计和追责机制 [7] - 最先规模化的将是“最能把体系跑通”的形态,人形机器人重要但不是商业化的唯一入口或前置条件 [7] 具身智能体系的五层架构 - **第一层:物理执行单元**:在现场“动手”,形态多样(轮式+机械臂、四足、人形等),关键覆盖高频动作、稳定、可维护、可量产、能复制 [8] - **第二层:端侧底座能力**:负责实时、安全、断网可用的基础功能,如基础感知、低级控制、安全刹停、局部避障导航,追求“够用、稳定、可控” [10] - **第三层:云端高能力**:提供复杂语义理解、跨任务规划、长程任务编排、异常归因、策略生成、质检复盘等更聪明、更泛化、可迭代的能力,以服务化、按需付费形式提供 [11] - **第四层:远程介入与调度**:目标是将长尾问题从事故变成流程,实现短时插针,并系统化管理触发、权限、留痕、追责、复盘与沉淀 [12] - **第五层:运营治理与数据闭环**:包括调度、运维、培训、质检、保险、合规审计等,决定体系能否规模化,数据闭环使远程介入越打越薄,人机比越做越高 [13] NVM(一人覆盖多智能体)的成本意义 - NVM的本质是决定成本结构是否成立,而非远程操作是否酷炫 [14] - 实现NVM需满足三个条件:把持续操作变成短时插针、把插针门槛做低、把插针结果变成资产 [18] - 技术(如VR/AR、手柄)的价值在于降低操作心智负担,使远程人力能像“云服务”一样被调度和共享 [15] 家政服务的体系化重构路径 - 家政是典型的长尾、非结构化场景,但也是刚需大市场,适合检验体系价值 [16] - 商业化路径不是等待完全自主的机器人,而是将服务重构为“远程任务化服务 + 现场执行单元” [16] - 用户下单变为任务单,执行单元完成大部分稳定工作,真正难的1%(如特殊阀门、门把手)由远程人员短时插针解决 [17] - 该模式重组了信任风险,服务过程权限可控、可审计,平台可汇聚不同技能的远程服务人员,家庭成员也可成为服务供给的一部分 [17] 隐私与安全的工程化解决方案 - 规模化服务需要“受控窗口 + 匿名化 + 证据链”的工程化方案,而非全程直播 [20] - 具体措施包括:敏感区域默认不开放或局部视野、人脸证件等自动遮挡、变声头像替换等匿名化手段、按单授权的最小权限、以及全程留痕审计 [28] - AIGC技术进步使匿名化与受控展示更易工程化落地 [20] 其他潜在落地场景 - 具身智能将落地于高频、任务可拆解、流程可标准化、环境相对可控、易审计的场景 [21] - 包括城市清洁车、扫地机器人、园区巡检、楼宇运维、政务/服务机器人、商场、酒店、医院等服务场景 [29] - “腿/四足/人形”的价值在于覆盖轮式到不了的环境,减少必须人工到场的比例 [21] 算力部署与商业模式分层 - 商业化不要求每台设备本地运行超大模型,更自然的方式是“本地算力 + 云端算力分层” [22][23] - 这将形成市场化分档:用户可购买低本地算力版本保证基础可用,也可订阅更强云端能力套餐以获得更少插针、更高一致性、更强复杂任务处理能力 [24] - 演进模式类似“手机 + 云服务”:硬件成本通过标准化量产摊薄,能力通过订阅与服务持续升级 [24] 家政场景更适合云端部署的优势 - 相比自动驾驶,家政/室内服务任务实时性要求低,可等待、可调度,云端推理延迟几秒到几十秒通常不影响体验 [25] - 云端部署优势包括:集中更强算力且单位成本更低、平台可做峰谷调度、远程人力更易共享、商业化约束更少且调度空间更大 [26][31] 语言层在家庭场景中的关键作用 - 家庭场景的难点在于“理解任务”,涉及常识、规则、偏好与隐含约束 [32] - “把客厅收拾一下”、“把厨房整理干净”、“帮忙做个晚饭”等指令包含大量需要推理的子任务和标准 [33] - 语言层的价值在于让常识、规则、偏好、隐含约束能被表达、检索、推理和对齐,从而提升泛化能力,并使远程插针的语义信息可解释、可沉淀,提高训练效率 [34] 对地方转型与就业结构的影响 - 具身智能体系商业化与地方转型、产业结构调整强相关 [35] - 远程介入与运营体系将催生新岗位,如远程操作员、调度员、维保运维、质检培训、流程设计、数据复盘等,这些工作不再强绑地理位置,有助于二三线及县域参与服务供给并重建就业结构 [35] - 物联网与具身智能体系将推动能力与资源跨地域流动,实现资源的重新组织 [36]
研二上就要结束,快的人已经在准备实习了~
自动驾驶之心· 2025-12-29 11:19
行业人才需求与培养现状 - 自动驾驶行业对实习生的核心要求是“具备完整的科研能力”,即能发现问题、定义问题、提出解决方法并形成方法论输出观点,而非仅能阅读论文[2] - 当前研究生(尤其是两年制学制)在研二下学期面临暑期实习、毕业小论文与大论文等多重任务堆积的时间压力[2] - 许多学生在科研过程中面临缺乏有经验研究者指导、不熟悉领域痛点难点、缺乏算力与数据、实验设计能力不足及论文写作困难等普遍难题[3][5] 科研辅导服务内容 - 提供的科研辅导覆盖自动驾驶领域近30个前沿技术方向,包括端到端、VLA、世界模型、强化学习、3D目标检测、BEV感知、Occupancy Network、轨迹预测、扩散模型等[4] - 服务形式包括1对1科研辅导,具体服务内容包括论文选题、全流程指导、实验指导以及申博指导[7][9] - 辅导成果显著,已有大量论文被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶级会议和期刊收录[8] 服务定位与市场 - 服务针对有论文发表需求的群体,支持带特定课题或研究方向进行咨询[5] - 辅导服务根据目标论文级别(如自动驾驶顶会/顶刊、CCF-A/B/C类、SCI各分区、EI/中文核心等)进行差异化定价[10] - 公司业务成功将具备完整科研能力的学生内推至自动驾驶行业的相关公司[2]
比亚迪组织架构地震!撤销第13事业部......
自动驾驶之心· 2025-12-29 11:19
核心观点 - 公司于12月27日启动新一轮组织架构优化,核心变革聚焦汽车事业群,旨在提升组织效率、整合资源以巩固其在新能源汽车领域的领先地位 [1] - 此次调整的核心是撤销原第十三事业部,将其模具与车灯业务分别划归汽车工程研究院及第十一事业部,通过剥离非核心职能、强化垂直管理来应对市场竞争 [3][7] - 调整的战略意图在于提升全链条效率,通过减少管理层级冗余、推动技术需求与制造能力快速对接,以加速技术创新和优化成本控制 [7] - 组织架构优化有助于支撑公司的海外市场扩张与高端品牌建设,通过提升研发与生产协同效率来响应海外需求并赋能高端产品线 [10] - 此次调整是基于“效率优先、聚焦核心”的战略选择,旨在为技术研发提速、成本控制优化、海外扩张深化及高端品牌突破铺路 [11] 组织架构调整细节 - 原第十三事业部(前身为2005年成立的弗迪精工)被撤销,其核心业务包括模具设计制造、车灯及注塑配件生产、轨道交通零部件 [3] - 模具业务划归汽车工程研究院(L1事业部级),以强化研发与制造环节的技术联动,缩短新产品开发周期 [4] - 车灯业务整体并入第十一事业部(L1事业部级),该事业部原本负责整车冲压、焊接、涂装、总装四大工艺及内外饰生产,此举可实现关键零部件与整车制造的无缝衔接 [4] - 同步进行了人事任免,包括任命罗忠良为汽车事业群商用车事业部总经理,吴衡出任第十一事业部总经理,田春龙调任副总经理,廉玉波不再兼任第十三事业部总经理 [4] 调整后的业务板块体系 - 调整后的事业群体系进一步明确为汽车、电池、电子、轨道交通四大核心板块,辅以独立型事业部及海外销售单元 [8] - 汽车事业群作为营收主力,旗下工程研究院与新技术研究院将重点攻关智能驾驶、电驱系统等前沿技术 [8] - 电池事业群则通过全球生产基地加速钠离子电池等新技术落地 [8] - 公司采用“核心板块+专项攻坚”的架构,以集中资源突破关键技术瓶颈,应对国际车企的技术追赶 [8] 战略意图与市场影响 - 调整是公司应对新能源汽车市场竞争加剧的主动求变,当前市场已进入“红海竞争”阶段,技术创新速度与成本控制能力成为关键 [7] - 通过撤销“中间层”,将零部件业务直接融入研发或整车制造体系,可减少管理层级冗余,推动技术需求与制造能力的快速对接 [7] - 例如,模具业务归入汽车工程研究院后,研发团队可直接参与模具设计优化,避免跨部门沟通导致的效率损耗 [7] - 车灯业务并入第十一事业部,则能通过规模化生产与整车工艺协同,降低零部件成本并提升质量稳定性 [7] 对海外扩张与高端化的意义 - 组织优化对海外市场拓展具重要意义,可提升研发与生产环节的协同效率,更快响应海外市场需求变化,缩短定制化产品开发周期 [10] - 在高端品牌领域,公司正通过整合资源推动品牌向上,工程研究院与新技术研究院的前沿技术成果可更高效地赋能腾势、仰望等高端产品线 [10] - 此举旨在打造差异化竞争优势,打破“性价比”标签,实现品牌价值跃升 [10]
市场正在惩罚只懂理论的端到端算法工程师......
自动驾驶之心· 2025-12-29 09:07
行业人才供需现状 - 中游车企和Tier1供应商正积极投入人力和资源跟进端到端自动驾驶技术,表明行业需求旺盛[1] - 市场面临算法人才短缺,面试候选人往往只懂部分技术或停留在论文层面,缺乏量产经验和优化能力[1] - 端到端岗位薪资很高,但缺乏能力相匹配的算法人才,凸显了高端技术人才市场的供需失衡[1] 核心技术栈 - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当下端到端自动驾驶落地最重要的技术栈[1] - 行业主流趋势是感知任务的合并与规控算法的学习化,如何高效合并感知任务和设计学习化规控模块成为各大公司核心技能[6] 课程核心内容与结构 - 课程为期三个月,包含七个实战项目,聚焦量产应用,从实战到落地层层展开[1] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等[1] - 课程大纲共八章,系统性地从概述、两段式/一段式框架、导航应用、强化学习、轨迹优化、兜底方案到量产经验分享[4][6][7][8][9][10][11][12][13] 技术方案详解 - 两段式端到端框架涉及感知与规划控制的信息传递,其优缺点将被详细分析,并通过经典的PLUTO算法进行实战[7] - 一段式端到端框架可实现信息无损传递,性能上优于两段式方案,课程将学习基于VLA、Diffusion等多种方案,并深入VAD系列[8] - 导航信息在自动驾驶中起引导、选路、选道作用,课程将介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式[9] - 纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,课程将重点介绍强化学习算法及其训练策略[10] - 轨迹输出优化项目将实战基于模仿学习的算法,重点介绍扩散模型和自回归算法,并在监督微调后结合强化学习[11] - 量产兜底方案采用时空联合规划,通过轨迹平滑优化算法保证输出轨迹的稳定可靠,涵盖多模态轨迹打分搜索与平滑算法[12] 课程实施与要求 - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年11月30日[14] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习与扩散模型理论基础,以及Python、PyTorch和MMDet3D框架使用能力[16] - 学员需自备GPU,推荐算力在RTX 4090及以上[16] - 课程计划于11月30日开课,按周或双周解锁新章节,预计三个月结课[14][15][17]
AI Day直播 | 如何解决特斯拉提出的端到端三大挑战?
自动驾驶之心· 2025-12-29 09:07
特斯拉端到端自动驾驶架构的核心挑战 - 特斯拉在ICCV2025分享中提出了自动驾驶面临的三大核心挑战:维度灾难、可解释性和安全保证、闭环评测 [3][6] - 行业围绕这三大难题探讨了多种可能的解决方法 [3] 相关学术研究进展 - 研究提出了UniLION模型,旨在构建统一的自动驾驶模型,采用线性组RNN [3] - 研究提出了DrivePI模型,这是一个空间感知的4D MLLM,用于统一的自动驾驶理解、感知、预测和规划 [3] - 研究提出了GenieDrive模型,致力于构建具有4D占据引导视频生成能力的物理感知驾驶世界模型 [3] 技术分享与行业探讨内容 - 分享将详解特斯拉端到端技术路线的变迁以及FSD V14的具体内容 [6][13] - 分享将针对端到端架构的三大挑战,详细解析UniLION、DrivePI、GenieDrive等解决方案 [6][13] - 分享将探讨能够理解并与物理世界互动的通用人工智能的形态 [6][13] - 行业内部存在学术与量产的分歧,以及技术路线的持续较量 [14] - 行业正在深入探讨谁在定义自动驾驶下一代方案,例如VLA与WA的对比 [14] 行业活动与知识获取 - 通过直播和知识星球“自动驾驶之心”可获取更深入的自动驾驶技术内容,包括学习路线、技术细节、QA及未公开内容 [1][2][14] - 行业举办“硬核夜话”活动,与一线量产专家深入探讨自驾数据闭环工程 [15]
世界模型和数字孪生的本质是什么?怎么赋能自动驾驶?
自动驾驶之心· 2025-12-29 09:07
世界模型与数字孪生概述 - 自动驾驶领域的研究离不开世界模型和数字孪生,核心目标是为感知模型构建虚拟训练环境并缩小其与真实世界的差距[5] - 世界模型的本质目的是理解世界动态并预测未来场景,所有研究路径均以此为核心共识[7] - 数字孪生的作用是在虚拟世界中定义自动驾驶车群的各个环节与要素,通过自由切换时空来低成本、高效率地研究关键技术,从而驱动现实世界技术的发展与落地[19] 世界模型的定义与发展 - 世界模型存在概念泛化问题,当前定义的核心是以视频为底座的“时空认知”,需要大量视频数据,游戏是重要的训练数据来源[7] - 研究分为两大分支:“内部表示”学派用潜在变量建模环境以辅助决策,“未来预测”学派生成真实视频并转向具身交互[7] - 具身环境的世界模型正从单纯模拟视觉动态,转向构建包含空间结构和物理交互的沉浸式环境,以为智能体提供全面学习平台[8] - 世界模型的发展历程包括:心理学起源(1971)、Ha等人首次系统构建(2018)、LeCun的JEPA框架(2022)、LLMs的隐性世界知识(2023)以及OpenAI的Sora实现显性模拟(2024)[10] 世界模型的核心要求与应用方向 - 世界模型需具备物理一致性、多尺度时空建模(从毫秒到分钟,从厘米到公里)以及因果推理能力[11] - 三大核心应用方向包括:作为基础模型的预训练方式、用于仿真和数据生成以补充真实数据不足、以及进行端侧推理以实现实时环境变化预测[11] - 在自动驾驶中,世界模型需要实时感知路况并准确预测其演变;在机器人技术中,则对导航、物体检测和任务规划等任务至关重要[11] 世界模型的技术路径与场景构建 - 3D高斯可能是最有前景的表征方式,但需解决核函数优化问题;神经辐射场(NeRF)与动态建模的组合也值得探索;分层建模可为不同目的服务[12] - 室内环境构建从纯视觉发展到多模态、社交交互及LLM驱动指令生成;室外环境构建早期通过检索3D资产,突破性进展包括使用3D生成模型构建可定制城市(如UrbanWorld)和程序生成的沙盒环境(如MineDOJO)[12] - 动态环境构建实现革命性转变,从静态预定义环境转向生成式模型实时动态模拟,代表工作有UniSim、Pandora和Streetscapes[12] 自动驾驶中世界模型的应用形态 - **学习隐式表示**:通过感知数据在潜在空间构建世界状态的抽象表征,将多模态输入转化为几何/语义空间以预测交通参与者未来轨迹与行为,技术演进从PointNet、CNN到Transformer多摄像头BEV融合及多模态LLM应用[16] - **世界模拟器**:直接生成车辆感知数据(如视频、3D占据网格)以模拟未来世界状态,传统几何空间模拟存在信息丢失、计算昂贵等局限,视频生成方案(如扩散模型GAIA-1/DriveDreamer)能直接生成逼真相机数据并支持文本控制[16] - 数据的表示形态包括图像/视频(如GAIA-1生成多视角驾驶视频)和BEV鸟瞰图(如BEVWorld统一感知-预测-规划)[16] 自动驾驶中世界模型的具体应用与车企落地 - 主要优势在于生成罕见场景(Corner Case),以降低实车路测成本,案例如MagicDrive3D实现可控3D场景生成,DriveDreamer-2用LLM增强多样性[17] - 支持端到端驾驶,如BEVWorld通过统一潜在空间整合感知、预测和规划,实现端到端优化[17] - 交通场景模拟可在几何空间、视频空间(基于扩散的视频生成模型)和3D空间(如OccWorld预测3D占据网格)中进行[17] - 车企落地情况:蔚来有NWM世界模型提供仿真闭环训练环境;小米有ORION框架集成仿真工具链;Wayve有GAIA-1生成式世界模型支持多模态条件[17] 数字孪生的层次与相关技术 - 数字孪生体现在多个层次:物理世界建模/数字化(将现实世界映射到虚拟空间)、模型迭代(利用虚拟环境数据训练感知模型)以及系统迭代(在仿真软件中研究系统并找出解决方案)[20][21] - 相关技术包括:3D占用网格(如OccSora)、点云预测(如Copilot4D预测雷达点云变化)、混合表示(如MaskGWM结合视频掩码重建)、利用LLM进行场景理解(如TOKEN将交通场景标记为对象级知识)以及运动预测(如Trajectron++预测多智能体轨迹)[22] 倾斜摄影三维重建流程 - 流程包括:图像预处理(畸变校正、曝光均衡)、空中三角测量(解算图像精确内外参)、密集匹配(生成高密度点云)、网格构建(生成三维几何网格模型)、纹理映射(生成纹理逼真的三维模型)以及模型优化与输出[23][24][25][26][27] MVSNET技术流程 - 流程包括:输入准备(接收多幅图像及相机参数)、特征提取(用CNN提取像素级特征)、代价体构建(计算特征相似度构建三维代价体)、代价体正则化(用3D卷积网络滤波)、深度图回归(计算深度概率分布生成深度图)以及后处理(优化深度图)[30][31][32][33] NeRF技术原理与演进 - NeRF用一个连续的体积函数表示3D场景,输入3D坐标和视角方向,通过训练神经网络预测点的颜色和密度,并使用体积渲染公式合成新视角图像[34][36] - 原始NeRF训练慢、渲染慢、内存占用大,后续改进包括:Instant-NGP+使用哈希编码将训练速度提升100倍;Mip-NeRF+解决抗锯齿问题;Block-NeRF+支持城市级大场景;D-NeRF+支持动态场景[37] - 与MVSNET区别:MVSNET是显式几何流水线,先生成点云/网格再渲染;NeRF是隐式场方法,直接学习连续函数并可通过体渲染生成任意视角图像[39][40][41] - 在跨场景泛化方面的改进工作包括:代价体编码(如MVSNeRF)、点云特征外挂(如Point-NeRF)、使用注意力机制聚合多视图(如IBRNet)、引入2D大模型先验(如DreamFusion)以及元学习/预训练流程(如Meta-NeRF)[44][45][46][48][50] 3D高斯溅射(3DGS)技术原理 - 核心思想是将三维场景显式地建模为数百万个可学习的3D高斯基元,每个基元包含位置、协方差(决定椭球形状)、不透明度和视角相关颜色(用球谐系数表示)等参数[52][53] - 基本流程:用COLMAP做SfM初始化稀疏点云和高斯球;进行视锥剔除;通过可微分投影将3D高斯变换到2D;采用分块光栅化(Tile-based splatting)按深度排序并行渲染;计算损失并反向传播优化所有参数;通过自适应密度控制(克隆、分裂、剪枝)来增删基元[57][58][59][60][61][62][63][64] - 自适应增删基元的依据:增基元依据梯度反馈、几何特征和多视角一致性;删基元依据全局重要性评分、多视角一致性和几何特征;通过克隆、分裂、直接删除或软剪枝等方式实现,并周期性执行以保持优化稳定性[71][72][74][75][76][77][79][80][82][83][85] 3DGS在自动驾驶领域的应用 - **高精度场景重建**:AutoSplat框架通过物理约束优化实现高度逼真的自动驾驶场景还原;GaussianOcc通过全自监督3D占用估计技术,在无LiDAR标注下使占用预测精度比传统方法提升15%-20%;LumiGauss解决极端光照场景重建失效问题;EGSRAL可实现大规模驾驶场景的自动化3D重建与语义标注[88][89][90][91] - **感知能力增强**:DepthSplat实现3DGS与深度估计的直接联动,可修正LiDAR因遮挡导致的深度误差,使对弱势交通参与者的深度估计误差降低至5厘米以内;3DGS与SLAM融合可实时区分静态背景与动态物体,使定位误差从传统SLAM的0.5米降低至0.1米以内[92][93] - **动态场景建模**:DrivingGaussian专为环视相机设计,采用分区域高斯建模策略,实现360°全方位动态场景重建;GaussianCity通过高斯点分层存储与动态加载技术,将城市场景重建速度提升60倍,可实现平方公里级区域的实时建模[94][95] - **仿真闭环**:3DGS通过高保真场景生成与实时交互,为自动驾驶算法迭代构建更真实的数字孪生仿真环境[97] - **动态场景建模技术**:S³Gaussian采用自监督学习,通过时空场网络和多头高斯解码器实现无需标注的动态场景分解;DrivingGaussian采用增量静态高斯和复合动态高斯图的分层建模策略,并通过引入LiDAR先验使静态背景重建误差降低40%[98][100][102]
理想汽车又一核心骨干将离职
自动驾驶之心· 2025-12-28 17:23
核心观点 - 理想汽车近期进行了一系列组织架构调整和高管变动 旨在回归创业公司管理模式以提升效率应对市场竞争压力 但公司正面临转型困难与销量不及预期的困境 [2][4][5] 高管变动与组织架构调整 - 理想汽车第二产品线总裁张骁将于近期离职 张骁于2016年5月加入 是早期核心员工 深度参与了理想ONE、L9等车型的产品定义 并带队完成了理想i8的造型方案调整与产品设计优化 [2][4] - 张骁离职可能是为了创业 近期汽车行业高管创业消息屡见不鲜 [4] - 理想汽车近期对供应链相关部门进行了组织架构调整和合并 将原智能汽车群组下属的“零部件集群”并入“制造” 由副总裁李斌管理 原零部件部门负责人罗屏已离职 [2] - 理想汽车在九月份对自动驾驶部门进行了大调整 从3个核心研发大团队拆分为11个二级部门 全部向高级副总裁郎咸朋汇报 同时取消了大规模“封闭开发” [5] 公司运营与战略 - 接近年末的集中调整 是理想汽车将全面回归创业公司的管理模式的具体行动 [4] - 近期多次组织架构调整旨在提升公司效率与活力 但也反映了市场竞争的压力 [4] - 在转型的关键阶段 理想面临的困难可能是始料未及的 [4] 产品销售与市场表现 - 理想汽车将2025年全年的销量目标从年初设定的70万辆下调至64万辆 [4] - 2025年前十一个月总销量约为36万辆 [4] - 2025年1月至11月各月销量分别为:1月29,927辆 2月26,263辆 3月36,674辆 4月33,939辆 5月40,856辆 6月36,279辆 7月30,731辆 8月28,529辆 9月33,951辆 10月31,767辆 11月33,181辆 [5] - 作为理想进入纯电SUV领域的首款车型 i8延期一年上市 [4] - 有观点认为理想i6产品力很强 但公司的困境预计还将持续一段时间 内部正在积极应对调整 [5]
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 17:23
DiffusionDriveV2模型整体架构 - 模型是一个用于端到端自动驾驶的强化学习约束截断扩散模型,整体架构包括环境编码、轨迹规划、模式选择等模块 [3] - 环境编码部分融合了来自摄像头和激光雷达的BEV特征以及自车状态信息,其中BEV特征经过上采样和下采样处理,自车状态通过编码器处理,两者拼接后作为后续处理的键值对 [5][6] - 解码部分参考了目标检测中的DETR思想,使用查询机制,输出被分割为轨迹查询和智能体查询,用于后续的轨迹规划和交互 [7] 轨迹规划模块核心技术 - 轨迹规划模块利用多尺度BEV特征,通过上采样和特征拼接,增强空间信息的利用 [8] - 采用基于锚点的扩散模型进行轨迹生成,首先通过K-Means聚类从真实轨迹数据中生成一系列轨迹锚点,然后在锚点上加入经过设计的高斯噪声以启动扩散过程 [9][10][11] - 将带噪声的轨迹锚点通过位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询特征以及自车查询特征进行多轮交叉注意力计算,以融合多源信息 [12][13][14][15][16][17] - 融合后的轨迹特征通过一个前馈网络,并利用时间特征进行尺度和偏移调制,最终预测出分类分数和去噪后的轨迹偏移量,该偏移量与原始噪声轨迹相加得到最终预测轨迹 [18][19][20][21][22] 模式选择与轨迹评估机制 - 模型包含一个模式选择器,用于从多个生成的轨迹模态中做出最终决策 [23] - 在轨迹生成(反向去噪)过程中,记录网络所有中间去噪结果以及最终输出 [25] - 使用一个综合评分器对生成的所有模态轨迹进行评估,评分维度包括安全性、舒适性、规则遵守、进度和物理可行性,并通过加权平均计算综合分数 [27] - 安全性检查包括碰撞检测和驶出道路判断,舒适性评估加速度和曲率连续性,规则遵守评估交通灯和车道保持,进度评估是否到达目标,物理可行性检查动力学约束 [27] 强化学习训练与优化策略 - 提出锚点内GRPO强化学习优化方法,在每个轨迹锚点对应的组内进行策略优化,以保持多模态能力同时提升轨迹质量,其损失函数涉及对去噪过程概率的对数求和与优势函数的加权 [28] - 优势函数通过计算组内奖励的相对均值和标准差进行估计,无需额外价值模型,并且通过只保留优于真实轨迹的样本进行对比学习来定义“好”的轨迹 [28][29] - 对优势函数进行截断处理,将所有负优势设为0,并对发生碰撞的轨迹施加-1的强惩罚,以提供清晰一致的学习信号 [30] - 在训练损失中结合了强化学习损失和模仿学习损失,以防止过拟合并保证通用驾驶能力 [39] 噪声设计与损失函数 - 针对轨迹近端与远端尺度不一致的问题,创新性地提出使用乘性高斯噪声替代传统的加性噪声,通过一个纵向和一个横向的乘法噪声因子来调整轨迹点,从而保持探索轨迹的平滑性和结构完整性 [33] - 在训练阶段引入探索噪声,在验证阶段使用确定性推理,并详细计算了每一步噪声对应的对数概率 [37][38] - 总体训练损失由轨迹恢复损失和分类置信度损失两部分组成,通过权重系数进行平衡 [42] - 轨迹恢复损失采用L1损失函数,分类损失使用带权重的焦点损失函数 [41][43]