自动驾驶之心
搜索文档
AI Day直播 | 自动驾驶中的渐进鲁棒世界模型全面盘点(一作分享)
自动驾驶之心· 2026-01-07 09:07
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 驾驶世界模型(DWM)因其能够显式建模车辆动力学特性、将多模态传感器输入融合为统一表征,并支持长时序推理的 核心能力,已引发学界与业界的广泛关注——为提升自动驾驶系统的安全性与鲁棒性展现出巨大潜力。 为此, 北京交通大学联合澳门大学、哈工大、新加坡南洋理工、清华、北航、小米汽车及 昆士兰大学提出了 自动驾驶中 的渐进鲁棒性感知世界模型综述。 本综述以鲁棒性为核心视角,对DWM进行了全面梳理: 首先概述了DWM的基础原理 及其在自动驾驶中的独特价值,随后按技术范式、架构设计及下游应用场景,对现有方法进行了体系化分类;进而创新 性地提出递进式鲁棒性分析框架,将DWM鲁棒性的发展历程划分为三个明确阶段(鲁棒性1.0至鲁棒性3.0)。 论文链接 : https://doi.org/10.36227/techrxiv.176523308.84756413/v1 分享介绍 今天,自动驾驶之心非常荣幸邀请到本文一作 北交贾飞阳博士 为大家分享驾驶世界模型的 ...
英伟达Alpamayo再进化!反事实推理VLA,安全性能提升很可观
自动驾驶之心· 2026-01-07 09:07
文章核心观点 - 英伟达、UCLA与斯坦福联合提出反事实视觉-语言-动作模型CF-VLA,该模型具备自反思与自适应推理能力,能够在执行驾驶动作前对规划进行反事实推理与修正,从而显著提升自动驾驶系统的轨迹准确性、安全性与可解释性 [2][3][10] - CF-VLA通过创新的“rollout-筛选-标注”数据流水线,从模型自身行为中自动挖掘高价值场景并生成反事实训练数据,形成自改进循环,是实现“三思而后行”自动驾驶智能体的重要一步 [3][11][15] 背景与现有挑战 - 现有增强推理能力的视觉-语言-动作模型主要生成描述性推理轨迹,缺乏对自身规划动作安全性或合理性的质疑与修正能力 [3][6] - 实现VLA模型内部的自反思式反事实推理面临两大挑战:一是缺乏动作到语言的映射机制,二是标准训练流程极少教导模型回答反事实问题 [7] CF-VLA模型框架与核心机制 - **自反思反事实推理循环**:模型首先生成时间分段的元动作概括驾驶意图,随后结合视觉环境进行反事实思维链推理,核心问题是“若我遵循该规划,会发生什么?”,并在最终轨迹生成前修正不安全或非最优规划,形成“元动作→反事实推理→更新后元动作→轨迹”的闭环 [10][19] - **自适应推理**:模型具备“按需思考”能力,通过统一指令隐式学习,仅在复杂、高风险场景中启用反事实推理,在简单场景中节省计算资源,从而平衡性能与测试时计算开销 [3][16][21] - **元动作设计**:元动作作为语言与动作之间的中间抽象,从纵向、横向和车道级三个正交维度,在6.4秒规划时域内以时间分段形式描述驾驶行为的预期演变,便于语言模型进行高层意图的推理与修正 [21][22] 数据流水线与训练方法 - **“Rollout-筛选-标注”流水线**:首先对基础VLA模型进行rollout生成候选元动作与轨迹;通过比较自由生成与预填充真实元动作下的轨迹质量差异,自动筛选出元动作为性能瓶颈的高价值数据点;最后利用高性能教师模型为筛选出的场景生成反事实推理轨迹 [11][12][24][26] - **混合数据训练**:训练结合了纯轨迹数据集(约1160万个20秒视频片段)、元动作标注数据集(训练集含43.3万个20秒片段和80.1万个8.4秒样本)以及反事实推理数据集(通常包含20万个样本),分阶段训练得到完整CF-VLA模型 [8][31] - **多轮训练与自改进飞轮**:训练后的CF-VLA可重新接入数据流水线生成新一轮反事实数据,进行多轮训练以持续提升性能并降低推理率,实现自改进循环 [14][32] 实验结果与性能提升 - **轨迹准确率提升**:相比纯轨迹模型,CF-VLA将轨迹准确率提升高达17.6%;相比非反思元动作基线模型,提升9% [3][14] - **安全指标显著改善**:CF-VLA将安全指标提升20.5%,碰撞率降低约25%-30%,偏离道路率降低约15%-20% [3][45] - **自适应推理有效性**:CF-VLA的推理率与场景难度强相关,在变道、转向、弱势道路使用者等高不确定性或高风险场景中推理频率显著增加,并在这些复杂场景中实现了更大的误差降低 [21][45] - **多轮训练优势**:进行第二轮反事实训练后,模型在保持或提升平均误差和元动作对齐度的同时,推理率降低近一半,输出长度缩短,实现了准确率-安全性-计算开销的更优权衡 [43][45] 消融实验关键发现 - **元动作的重要性**:引入元动作相比纯轨迹模型使最小平均位移误差和最小终点位移误差降低约9%,添加语言监督后可再提升约5% [41] - **自适应推理的必要性**:强制在所有场景进行推理的模型,其最小平均位移误差比自适应变体升高22%,且修正后元动作IOU下降;强制不推理则在复杂场景中表现不佳,证明推理应选择性使用 [49] - **数据筛选的关键作用**:使用筛选后数据集训练的CF-VLA,其核心规划指标优于使用全数据集并强制“全程思考”的变体,表明反事实监督必须具有针对性,简单增加标注会引入噪声损害性能 [50] 定性案例与行业意义 - **实际场景修正能力**:可视化案例显示,CF-VLA能在并道、转向、弱势道路使用者等多种场景中,识别初始规划与场景的不匹配,并生成针对性修正,如提前变道避障、果断转向、减速让行等,提升了安全性、交通效率与语义一致性 [52][55] - **行业进化趋势**:自适应推理与自反思能力是当前自动驾驶VLA模型研究的热点,也是自动驾驶未来进化的趋势 [2]
开年收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2026-01-06 17:17
自动驾驶领域学术研究趋势与方向 - 行业观察到自动驾驶领域的研究方向呈现前沿与差异化并存的格局 前沿方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型[2] 相对竞争较少的赛道包括开集目标检测、占据网络以及小样本/零样本学习[2] - 针对不同专业背景的研究者 行业建议采用差异化的学习路径 计算机和自动化背景的研究者更适合深度学习相关的前沿方向 如视觉语言模型、端到端和世界模型 因其在职业和学术发展上空间广阔[2] 机械和车辆背景的研究者则建议从传统规划与控制、3D高斯泼溅等方向入手 这些方向对算力要求较低且更易入门[2] - 行业普遍认为 研究能力的提升依赖于持续的方法论训练 包括大量阅读论文、积极交流并逐步形成独立的思考和创意[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域广泛的研究与技术方向[3] 核心感知方向包括端到端模型、视觉语言模型、3D目标检测、BEV感知、占据网络、语义分割、轨迹预测、单目感知以及车道线与在线高精地图构建[3] - 服务同时涵盖规划控制与前沿模型技术 具体包括运动规划、强化学习、扩散模型、流匹配[3] 在多模态融合与特定传感器领域 服务涉及多传感器融合、点云感知和毫米波雷达感知[3] - 其他支持的研究方向还包括3D高斯泼溅和多任务学习[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 服务延伸至博士申请指导领域[7] - 公司宣称其中稿率很高 并有大量论文被顶级会议和期刊收录 包括CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表渠道 - 公司辅导的论文目标发表渠道涵盖自动驾驶领域的顶级会议 包括CCF-A、CCF-B、CCF-C等级别的会议[10] - 目标期刊包括SCI一区至四区 以及中科院分区的一区至四区期刊[10] - 服务也支持EI检索期刊、中文核心期刊的发表 并覆盖毕业设计论文、博士申请以及竞赛相关的论文需求[10]
告别2025!业内头部公司2025年硬核工作总结(地平线/理想/英伟达等)
自动驾驶之心· 2026-01-06 17:17
行业年度回顾与趋势 - 2025年是自动驾驶从“预研舒适区”走向“落地深水区”的一年,技术关键词从BEV感知、多传感器融合等走向成熟,转向端到端、VLM/VLA、世界模型等成为大众视野的新焦点 [2] - 前装智驾在2025年走向成熟,消费者质疑声减少,行业共识为“智驾这事,能成” [3][4] - 智能电动汽车产业的竞争已进入决赛阶段,技术升级迭代节奏加快,市场竞争压力加大 [21] - 2026年,L2级智能驾驶将告别技术飞速狂飙的时代,进入下沉攻坚期,同时针对L3的探索将渐入大众视野,L4也将迎来新一轮的规模破局 [22] 主要公司动态与成果 地平线 - 2025年打了一场漂亮的翻身仗,其HSD(Horizon Super Driving)方案直接破圈,展示了端到端方案的高上限 [9] - 在端到端、闭环训练、强化学习、世界模型和轨迹建模等领域研究深入,引领行业落地方案发展 [9] - 智驾研发团队已超过1000人,同时内部布局具身智能 [9] 小米汽车 - 小米智驾是2025年发展最快的,在四年时间内于新能源红海赛道杀出重围,年底发布了HAD增强版 [9] - 智驾迭代速度极快:从2024年3月的高精地图高速NOA,到2024年5月的城区NOA,2024年10月的轻图/无图版本,2025年2月的300万clips端到端版本,2025年7月的1000万clips版本,直至近期推出的世界模型版本 [10] - 沿着智能驾驶1.0规则驱动、2.0数据驱动、3.0认知驱动的三个阶段稳步扩展,未选择跳代研发 [10] - 2025年智驾研发团队突破1000人,预计2026年规模更上一层楼 [11] 理想汽车 - 自2024年端到端+VLM双系统量产以来,已跻身国内智驾第一梯队,在学术和量产方案上保持领先,是主推VLA量产的中坚力量 [13] - 公司处于增程转纯电、汽车转AI的转型阶段,但年度目标销量完成了58.05% [13] - 在智驾技术探索上提出了TransDiffuser、World4Drive、ReflectDrive等多个引起业内讨论的方案,覆盖前沿技术领域,并提出了从“数据闭环到训练闭环”的下阶段方向 [13] 小鹏汽车 - 2025年触底反弹,销量从2024年的19万辆翻倍至近43万辆,顺利完成全年目标 [14] - 凭借VLA 2.0顺利破圈,其核心逻辑是拆掉离散化的语言输出以提升效率,并实现自监督以大规模使用数据 [14] - 2025年基本all in量产,学术论文产出不多 [15] 博世汽车 - 作为国际Tier1巨头,被国内智驾飞速发展卷到,正猛抓预研和量产两条线 [16] - 在量产方面投入更多资源落地一段式端到端,并在闭环仿真(如DGS,NeurIPS 2025)和视觉基础模型(如DINO-R1)等方面有投入 [16] - 相比去年成果颇丰,大方向上跟上了前沿脚步并开始打造自己的特色 [16] 特斯拉 - 在ICCV 2025上的分享引起国内热情,整体仍沿用端到端范式 [19] - 亮点包括引入前馈GS极大提升闭环仿真能力,以及引入Language辅助Action输出 [19] - 在端到端和VLA、静态感知等方面有系列工作,如DiffVLA、AnchDrive、SparseMeXT等 [18] 英伟达 - 野心不局限于硬件公司,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道产出多篇重量级工作 [20] - 主要系列包括:Cosmos系列(世界基础模型平台)、Nemotron系列(为代理式AI打造的“数字大脑”)、具身系列(GR00T N1和Isaac Lab)、以及自动驾驶系列(如Alpamayo-R1自驾VLA框架) [25] Waymo - 作为全球L4级自动驾驶领军企业之一,其基座模型进展显示在follow国内的快慢双系统端到端方案,与理想E2E+VLM及小鹏VLA2.0有相似之处 [20]
简历直推 | 清华大学全国重点实验室招聘工程师/博后/实习生(世界模型/重建/感知等)
自动驾驶之心· 2026-01-06 14:52
清华大学智能绿色车辆与交通全国重点实验室招聘信息 - 清华大学智能绿色车辆与交通全国重点实验室正在招聘工程师、博士后及实习生,招聘岗位涉及自动驾驶车端世界模型、路侧数据重建车端数据、智能网联感知算法及AI共性功能模块库软件等多个前沿方向 [1] 自动驾驶车端世界模型方向 - **岗位目标**:面向端到端自动驾驶核心技术需求,从事车端世界模型的研究与工程化落地,构建融合物理先验、时序一致性与行为预测能力的世界模型架构,以支撑自动驾驶系统的感知、预测、规划一体化能力建设 [3] - **核心职责**:包括研究与开发车端世界模型核心架构,构建驾驶场景时空表征与预测模型,研发基于Transformer、Diffusion、Neural Fields等前沿架构的场景生成与仿真模型,设计多模态输入融合方案,以及完成世界模型在车端平台的部署优化 [6] - **次要职责**:包括搭建模型评估体系,开展模型压缩、量化、推理加速等工程优化,跟踪世界模型前沿进展,以及协助团队完成技术文档撰写与学术论文产出 [6] - **任职要求**:要求计算机、人工智能等相关专业硕士及以上学历,熟悉Transformer、Diffusion Models等时序建模与生成式架构,熟练掌握PyTorch并具备大规模模型训练经验,熟悉自动驾驶相关技术栈,有世界模型、行为预测等相关研究或车端部署经验者优先 [11] 从路侧传感数据重建生成车端传感数据方向 - **岗位目标**:面向车路云一体化场景,从事多模态大模型与生成式算法研究,实现基于路侧传感数据的车端视角重建与生成,研发世界模型核心架构、三维重建与神经渲染系统、多视角生成算法 [9] - **核心职责**:包括研究与复现前沿多模态大模型与生成式算法,设计并研发世界模型核心架构,构建多模态特征融合与对齐体系,研发三维重建与神经渲染系统,以及基于Diffusion Models进行多视角生成与视角修复 [12][13] - **次要职责**:包括搭建统一评估体系与自动化测试框架,开展系统级工程优化与部署,协助团队完成技术文档撰写与学术论文产出,以及配合团队开展技术研讨交流 [18] - **任职要求**:要求计算机、人工智能等相关专业硕士及以上学历,熟悉Transformer、Diffusion Models、NeRF/3DGS等前沿生成式与三维重建算法,熟练掌握PyTorch并具备大规模模型训练经验,具备多模态数据处理经验,有VLM/世界模型或NeRF/3DGS实际项目经验者优先 [18] 智能网联自动驾驶感知算法方向 - **岗位目标**:面向智能网联自动驾驶感知系统核心需求,从事BEV感知算法研发与嵌入式部署工作,涵盖障碍物检测、车道线识别、红绿灯与交通标识识别等关键感知任务,并完成感知模型在Orin平台的高效推理部署 [17] - **核心职责**:包括负责BEV感知算法的研发与优化,完成感知模型在Orin平台的模型转换与C++推理部署,负责感知模块的ROS Topic数据收发与系统集成,以及承担多类传感器的数据解析与驱动开发 [22] - **次要职责**:包括负责ROS各节点的调度与系统集成,参与感知结果与交通流的可视化平台开发,协助团队完成技术文档撰写,以及配合团队开展感知系统的测试验证 [19][22] - **任职要求**:要求计算机、车辆工程等相关专业硕士及以上学历,熟悉主流深度学习框架并具备BEV感知、目标检测等算法开发经验,熟练掌握C++编程并具备TensorRT/ONNX模型转换与嵌入式推理部署经验,熟悉ROS/ROS2开发并具备多传感器数据处理经验,有Orin等嵌入式平台或实车感知系统开发经验者优先 [22] 分层解耦AI共性功能模块库软件方向 - **岗位目标**:面向智能网联自动驾驶AI算法工程化需求,从事分层解耦的AI共性功能模块库设计与开发,构建模块化、组件化、可扩展的算法组件体系,并研发图形化开发系统与可视化工具链,以提升算法开发效率与系统集成能力 [21] - **核心职责**:包括负责分层解耦的AI模块库设计与开发,研发图形化开发系统与可视化工具链,负责前后端整体架构设计与开发,以及与算法团队协作完成算法封装与系统集成 [23][24] - **次要职责**:包括优化工具链性能与用户体验,编写技术文档与接口规范,协助团队完成平台演示与对外展示,以及配合团队开展系统测试与问题排查 [23] - **任职要求**:要求计算机、软件工程等相关专业硕士及以上学历,熟练掌握前端与后端至少一类技术栈,理解软件架构设计、模块化开发与系统工程化,熟悉可视化技术或图形化流程引擎,有工具链平台、工作流系统或低代码平台开发经验者优先 [24] 通用应聘信息 - **所需材料**:所有岗位均要求提供个人简历和代表性成果支撑材料 [8][16][20][23] - **应聘方式**:所有岗位的应聘材料均需打包发送至指定邮箱 `helei2023@tsinghua.edu.cn`,邮件主题需注明“岗位名称+应聘人员姓名” [8][16][20][23]
答应大家的《自动驾驶世界模型》课程终于开课了!
自动驾驶之心· 2026-01-06 14:52
课程核心信息 - 课程名称为《世界模型与自动驾驶小班课》,是《端到端与VLA自动驾驶小班课》的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等算法 [1] - 课程为首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界的落地,助力学员理解端到端自动驾驶 [11] - 课程为离线视频教学,包含VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - 课程于1月1号开课,预计两个半月结课,各章节按计划时间解锁 [15][16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表2篇CCF-A论文及若干CCF-B论文 [3] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产 [3] - 拥有丰富的自动驾驶感知和端到端算法研发实战经验,已主持并完成多项相关算法的产品量产交付 [3] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界的应用环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解及一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [9] - **第六章:世界模型岗位专题** 基于前五章基础,分享世界模型在工业界的应用现状、行业痛点、期望解决的问题,以及如何准备相关岗位面试 [10] 关键技术覆盖 - 课程将复习Transformer并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [12] - 详细介绍BEV感知基础知识及世界模型常见的占用网络 [12] - 讲解扩散模型理论,该模型输出多模轨迹是当前学术界和工业界追捧的热点 [12] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念 [12] - 讲解其他生成式模型,如VAE、GAN以及Next Token Prediction [12] - OCC生成类世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等经典与前沿工作 [13] 面向人群与学后收获 - **面向人群要求**:学员需自备GPU,推荐算力在4090及以上;需具备一定的自动驾驶领域基础,熟悉其基本模块;了解transformer大模型、扩散模型、BEV感知等技术基本概念;具备一定的概率论、线性代数及Python和PyTorch语言基础 [14] - **学后收获目标**:学员学完后能够达到1年左右世界模型自动驾驶算法工程师水平;掌握世界模型技术进展,涵盖视频生成、OCC生成等方法;对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解;可复现II-World、OpenDWM等主流算法框架;能够将所学应用到项目中,设计自己的世界模型;在实习、校招、社招中均能受益 [14]
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 08:28
文章核心观点 - 文章是一位资深AI研究员对个人职业变动与年度研究方向的回顾与总结 其核心观点在于强调大模型推理效率提升与模型可解释性研究是当前及未来人工智能领域两个至关重要且充满前景的方向 同时分享了个人从大公司离职加入初创企业的职业选择 [3][5][6][10] 个人职业变动与感悟 - 作者于2025年1月底被要求加入Llama4项目进行“救火” 尽管项目最终结果超出其最初设想的四种可能 但在此过程中团队在强化学习训练的核心问题上进行了多项有价值的探索 [3] - 作者在Meta工作十年多后最终离职 尽管此前因经济和家庭原因多次犹豫 但最终将此次变动视为一个积极的转折点 并决定加入一家初创公司担任联合创始人 [4][5] - 作者回顾了2021年的一项工作 该工作起初未受关注但后来在ICML会议上获得了最佳论文荣誉提名 并成为表征学习领域一篇较知名的文章 [5] 大模型推理研究方向 - **连续隐空间推理**:作者团队在2024年末公开的连续隐空间推理工作(COLM‘25)在2025年引发研究热潮 随后团队在2025年上半年发表了一篇理论分析文章(NeurIPS‘25) 阐述了该方法的优势所在 [6] - **推理效率提升**:团队通过多项研究致力于提高大模型推理效率 - **Token Assorted(ICLR‘25)**:通过VQVAE学习隐空间的离散token 并将其与文本token混合进行后训练 在降低推理代价的同时提升了性能 [7] - **DeepConf**:通过检测生成token的置信度来决定是否提前终止推理路径 从而显著减少推理所用token数量 在多数投票场景下性能更优 [7] - **ThreadWeaver**:通过制造并行推理的思维链并进行后训练来加快推理速度 [7] - **其他尝试**:包括在dLLM上用强化学习训练推理模型 以及在小模型上学习推理 [7] 模型可解释性研究方向 - **关注动机**:作者认为无论人工智能通过规模扩展最终成功或失败 可解释性研究都至关重要 是确保AI向善或寻找替代方案的关键 且人类探索的天性也驱使其研究“黑盒” [10] - **Grokking(顿悟)现象**:作者团队通过分析Grokking这一从记忆到泛化的特征涌现现象 来探索模型学习的表征与数据结构的关联 2024年的初步工作(NeurIPS‘25)后 近期在可证明的缩放定律研究上取得较大突破 [8] - **RL与SFT行为差异**:作者团队年末的工作从权重层面解释了强化学习与监督微调行为不一致的原因 指出SFT因使用非当前策略数据导致权重主分量被大幅修改 引发灾难性遗忘 而RL使用当前策略数据 主要改变权重次要分量 避免了该问题 [9] - **研究现状与愿景**:作者指出当前通过寻找“电路”来打开模型黑箱仍处于初步阶段 真正的挑战在于从第一性原理解释模型为何会涌现出解耦、稀疏、模块化等特征 其愿景是实现从“收集证据”到“推导原理”的范式转变 最终指导下一代模型设计 [11]
李弘扬团队最新!SimScale:显著提升困难场景的端到端仿真框架......
自动驾驶之心· 2026-01-06 08:28
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 李弘扬老师团队的新工作 - SimScale,中科院、港大OpenDriveLab和小米汽车联合完成。 近年来,大模型领域背靠 Data Scaling 取得了前所未有的突破,但到了自动驾驶,这套方法却突然失灵了。不是因为模型不够大,而是现实世界根本给 不了足够多的关键场景。 现实道路中的绝大多数驾驶片段都是重复而安全的"常态行为",真正决定策略能力上限的高风险、长尾、极端场景却往 往难以遇见,更难以大规模收集。因此自动驾驶不是缺数据,而是缺"对的"数据,行业亟需一种能系统性生成大量关键 场景、并规模化训练的新路径。 针对这些问题,SimScale应运而生,SimScale探索了在scalable的3DGS交互式仿真下,生成reward、recovery等多种数据, 进行联合训练以最大化现有训练数据的利用效率。 最终在NavSim leaderboard 上取得了新的 SOTA,并在多类主流 E2E planner 上带来了显著提升! 今天自 ...
L4数据闭环总结 | 面向物理 AI 时代的数据基础设施
自动驾驶之心· 2026-01-06 08:28
文章核心观点 - 在通往通用物理智能(如自动驾驶)的道路上,模型算法是天花板,而数据基础设施是地板,真正的壁垒在于两者能否实现“双轮驱动”[2] - 模型算法本身正在变成“快消品”,但如何从物理世界挖掘数据、定义好坏、构建逼真虚拟考场的基础设施,一旦建成将成为真正的护城河[6] - 对于物理AI(如机器人、自动驾驶)而言,越是走向端到端和世界模型,坚实的数据基础设施就越有价值,因为其实时交互、幻觉致命和数据稀缺的特性决定了需要高质量、高价值的数据闭环进行校准和约束[27][28][29] 行业风向与共识转变 - 自动驾驶和AI圈子的关注点已从比拼单个模型的智力上限(如模型架构、SOTA),转向数据引擎、自动评测体系、生成式仿真和闭环能力等数据基础设施关键词[3][4][9] - 头部公司如Tesla在FSD V12的技术分享中,强调从大规模车队中挖掘“特征片段”并构建自动评分系统来喂养模型[4] - Wayve等激进端到端玩家将生成式世界模型(如GAIA-1/GAIA-2)写入产品路线图主干,认为AI需先学会在视频中生成逼真、可交互的世界才能真正学会开车[4] - DeepMind的Genie项目逻辑类似,旨在从海量互联网视频中学习出可交互的虚拟环境,供智能体进行加速训练[5] 物理AI的进化形态(类比科幻作品) - **第一阶段:完全虚拟(SAO Aincrad篇)** - 对应早期仿真与远程示教,所有交互发生在代码构建的虚拟空间,效率极低(1x实时),且无法模拟物理世界的混沌噪声[10][11][17] - **第二阶段:增强现实(SAO Ordinal Scale篇)** - 对应当下的大规模实车数据闭环,在真实世界之上叠加虚拟元素,数据天然包含物理世界的真实分布,但积累极端案例受物理时间限制(需实际跑完1亿公里)[12][17] - **第三阶段:世界模型与时间加速(SAO Underworld篇)** - 对应物理AI的终极方向,通过世界模型构建懂物理规律的模拟器,并开启“上帝模式”和时间加速(如1000倍),让AI在虚拟世界中每天跑100亿公里,实现指数级进化[13][14][18] - **终局展望:脑机接口与人机融合(加速世界)** - 对应Neuralink等公司的愿景,通过高带宽脑机接口实现人类意图的零损耗采集,直接将人类意图和价值观注入AI[15] L4自动驾驶数据闭环体系的核心作用 - 该体系并非仅仅用于“修Bug”,而是将物理世界的混沌翻译成世界模型能看懂的“教科书”,为未来世界模型做准备[16] - **第一层:感知物理世界的“体温计”(指标体系)** - 定义如MPS(每愚蠢里程)、MPD(每危险里程)等客观物理指标,这些指标未来将成为世界模型的奖励函数,是物理AI的根本准则[17][20] - **第二层:把“瞬间”变成“病历”(数据分级与CaseID)** - 通过Microlog/Minilog/CaseID体系,从每秒PB级的噪声数据中进行高价值信息提取,将零散数据打包成结构化的“临床病例”,供世界模型使用[21][25] - **第三层:把车队变成“题库”(标签与FastDM)** - 通过秒级标签为每帧数据打上数百个维度的标签,并配合FastDM(极速挖数引擎)实现上帝视角的精准数据挖掘,这构成了针对世界模型的“生成指令集”[22] - **第四层:把专家经验变成“自动判卷人”(Trigger框架)** - 将资深算法工程师的Debug经验编写成Python Trigger,未来可在世界模型中作为自动化判卷老师,24小时监控虚拟车辆行为并给出反馈[23] - **第五层:从Bug到课程(问题聚类)** - 将零散的Bug聚类成“典型问题场景”,为AI训练提供课程学习(Curriculum Learning)的指引,例如分阶段专项训练“无保护左转”或“鬼探头”类场景[24][26] 物理AI时代的基础设施价值 - 与LLM(大语言模型)不同,物理AI(如自动驾驶)需要坚实的数据基础设施,原因在于:1) 幻觉可能致命(如生成不真实的物理参数导致车祸);2) 高质量负样本(如车祸数据)极其稀缺[27][29] - 未来的开发模式可能是世界模型作为“生成器”负责发散,而数据基础设施作为“判别器”负责收敛,用典型问题库指引生成方向,用MPD/MPS指标评分,用实车数据做图灵测试,确保生成内容符合物理现实[29][36] - 真正的长期主义是接受模型会变的事实,将资源投入到那些“不会变”的事物上,如物理世界的客观指标、对优质数据(Corner Case)的筛选逻辑、以及自动化闭环的流程[32][37] 实践成果与商业价值 - 阿里巴巴达摩院/菜鸟自动驾驶团队在2018至2025的七年间,实现了从封闭园区运营到公开道路常态化运营的跨越[35] - 具体成果包括:双十一期间近千台“小蛮驴”在封闭园区的并发运营历史峰值;高速公路L4重卡达成500 MPI的目标;以及约500台公开道路无人车的常态化运营与持续增长[35][40] - 该系统创造了千万公里无重大事故的安全记录,并实现了降本增效的商业价值,证明了自动驾驶不仅是科技,更是脚踏实地的生产力[38]
拆解理想在世界模型方向的工作
自动驾驶之心· 2026-01-05 17:30
理想汽车的世界模型技术布局 - 公司对世界模型的定义是“重建+生成”,利用3DGS技术重建自动驾驶场景,再通过生成方法实现闭环仿真或场景生成 [2] - 公司已有一系列相关研究成果,包括中稿ICCV 2025的Hierarchy UGP(场景重建)、StyledStreets(多风格场景生成)、World4Drive(结合驾驶意图的规划)以及中稿ACMMM 2025的OmniGen(统一生成视觉与激光雷达)等 [2] - 公司目前未深入利用世界模型的预测能力直接输出车辆轨迹,但已进行相关探索(如World4Drive)[3] 行业对世界模型的共识与现状 - 业内普遍认为世界模型是围绕视频搭建的时空认知系统,通过跨模态预测和重建学习时空与物理规律 [3] - 行业内的世界模型技术主要围绕3DGS重建、视频/OCC生成以及激光雷达点云生成展开 [3] - 特斯拉等领先公司及许多中游厂商均在布局世界模型的预研和落地 [3] - 但行业对世界模型的定义仍较模糊,存在“生成即世界模型”或“生成+重建即世界模型”等不同理解 [4] 自动驾驶世界模型课程内容框架 - 课程第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)[7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些是求职面试的高频技术关键词 [7][8] - 第三章探讨通用世界模型,涵盖Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉的世界模型模拟器等热门工作 [8] - 第四章聚焦视频生成类世界模型,讲解GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战 [9] - 第五章聚焦OCC生成类世界模型,讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战,此类方法易于扩展至轨迹规划 [10][14] - 第六章分享工业界应用经验,包括行业痛点、期望解决的问题以及相关岗位的面试准备 [11] 课程的技术基础与学习目标 - 课程技术背景知识涵盖Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS以及VAE、GAN等其他生成式模型 [13] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV等概念、有概率论与线性代数基础以及Python/PyTorch编程能力的学员 [15] - 课程期望学员学完后能达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展,能复现II-World、OpenDWM等主流框架,并应用于实际项目设计 [15] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] - 各章节按计划解锁,例如第一章于12月10日解锁,第六章于3月1日解锁 [17]