自动驾驶之心
搜索文档
语言或许不是自驾的「终极答案」,但它无疑是当下最可行的路径...
自动驾驶之心· 2025-11-29 10:06
自动驾驶技术发展现状 - 目前行业内的量产模型普遍采用经典的数据飞轮模式,即模型部署、效果检验、数据挖掘、重新训练、再次部署的闭环流程,该模式持续推动系统进化[4] - 当数据规模处于十万至百万量级时,增加训练数据能带来显著收益,但当前算法进入端到端时代,数据规模已上升至千万量级,仅通过提升数据规模获得的模型性能收益越来越低,成本效益下降[4] - 数据飞轮模式在提升模型性能方面面临瓶颈,剩下的挑战多为数据稀缺和逻辑复杂的难题,这一点已成为行业共识,特斯拉、理想、小米、小鹏及英伟达等公司均已认识到这一趋势[4] 下一代自动驾驶技术方向 - 自动驾驶领域可从机器人学和语言智能体领域获得启示,自动驾驶长期享受廉价数据的红利,而机器人学则面临数据饥荒的考验,具身智能领域通过应对数据稀缺锻造出韧性,为通用能力实现铺平道路[7] - 当前自动驾驶系统已具备感知、记忆、决策、执行等智能体基本构件,但缺乏深度推理能力,下一代自动驾驶3.0时代需解决推理能力构建问题,发展路径从规则驱动到数据驱动,再转向推理驱动[7] - 推理驱动的自动驾驶需依赖四大支柱:推理能力、常识性认知、长时程记忆和解释与交互,英伟达在2025年10月发布的Alpamayo-R1模型将显式因果推理与轨迹规划整合进统一的VLA架构中[7] - 语言被视为当前最可行的路径,未来自动驾驶所需的数据燃料不再是传统的动态目标、静态元素等,而是富含推理过程的数据,与四大支柱相匹配[7] - 长程记忆能力要求自动驾驶系统在更大时间范围内运作,例如车辆在分岔路口需根据记忆返回上个路口重新规划导航,这体现了对系统更高层次的要求[8] 自动驾驶社区资源 - 自动驾驶之心知识星球是一个综合类社区,集视频、图文、学习路线、问答、求职交流于一体,目前成员超过4000人,涵盖学术界和工业界人士,目标在两年内达到近万人规模[13][14] - 社区提供近40+技术方向的学习路线,包括自动驾驶感知、仿真、规划控制、端到端学习、VLA等,并汇总了开源项目、数据集和仿真平台,帮助成员缩短检索时间[16][20][27] - 社区与多家自动驾驶公司建立内推机制,提供岗位推荐服务,并邀请学术界和工业界大佬进行直播分享,目前已举办超过一百场专业技术直播[23][101][103] - 社区内容覆盖自动驾驶全栈技术,包括3D目标检测、BEV感知、多传感器融合、规划控制、扩散模型等热点领域,并提供入门课程和实战方案,适合不同层次的学习者[27][29][31][33]
地平线RAD:基于3DGS 大规模强化学习的端到端驾驶策略
自动驾驶之心· 2025-11-29 10:06
文章核心观点 - 提出首个基于3D高斯溅射技术构建传感器级仿真环境并用于端到端强化学习自动驾驶策略的方法RAD [1] - 该方法采用三阶段训练流程:感知预训练、模仿学习预训练、强化学习与模仿学习混合微调 [3][5] - 与纯模仿学习方法相比碰撞率降低3倍动态碰撞率从0.24降至0.08静态碰撞率从0.03降至0.009 [25][29] 技术方案架构 - 状态空间包含BEV编码器学习实例级鸟瞰图特征地图头学习静态元素代理头学习动态交通参与者图像编码器学习规划特征规划头使用Transformer解码器整合场景表示 [7] - 动作空间横向动作范围-7.5米至7.5米纵向动作范围0米至15米均离散化为61个动作间隔0.25米动作执行周期0.5秒 [8] - 策略优化结合PPO算法与模仿学习通过自行车模型计算车辆位置更新 [11][12] 奖励函数与辅助任务 - 奖励函数按横纵向解耦设计包含动态碰撞静态碰撞位置偏差朝向偏差四项主要奖励 [16][17] - 辅助任务针对减速加速左转右转行为设计利用GAE计算损失权重例如动态碰撞辅助损失鼓励前方碰撞时减速后方碰撞时加速 [20][22] - 整体优化目标包含PPO损失与四项辅助损失加权和 [19][23] 训练流程与数据 - 第一阶段使用2000小时真实驾驶数据预训练感知模块 [28] - 第二阶段使用里程计数据监督训练规划模块 [28] - 第三阶段选取4305个关键场景其中3968个训练337个测试使用3DGS重建环境进行强化学习微调 [10][28] - 训练中强化学习与模仿学习数据比例4:1时效果最优 [28] 实验效果与对比 - 在碰撞率位置偏差率等关键指标上显著优于VADGenADVADv2等基线方法例如碰撞率从VAD的0.335降至0.089 [25][29] - 奖励函数与辅助任务消融实验证实所有组件均有效动态碰撞奖励对降低碰撞率作用显著 [25][27] - 方法在动态环境处理上展现闭环训练优势相比开环模仿学习更能适应分布外场景 [28][29]
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 08:49
端到端模型与VLA技术路线 - 理想汽车在端到端模型结合视觉语言模型量产的后期发现两大问题:训练数据量超过1000万片段后,模型性能提升速度显著变慢,5个月内平均无干预接管里程仅增长约2倍[5];端到端模仿学习缺乏深度逻辑思维能力,导致违反常理行为、决策不够智能及安全感不足[5] - 为解决上述问题,公司引入视觉语言模型,并主推视觉语言行为模型量产,期望其平均无干预接管里程达到1000公里以上[2][5] - 视觉语言行为模型具备三大核心能力:空间智能代表对远距空间和全局语义的理解能力;语言智能代表通过思维链生成决策并听懂人类指令,联合训练后推理速度可达10赫兹以上;行为策略代表使用扩散模型直接生成平滑轨迹,支持多种驾驶可能性[6] 仿真测试与闭环训练体系 - 公司升级模型评测方式,使用世界模型进行闭环仿真和测试,使后训练和强化学习环节的评测效率更高,测试成本从每公里18.4元大幅降低至0.53元[9] - 基于世界模型构建的仿真平台可实现强化学习,架构包括云端训练平台进行数据管理和奖励模型更新,更新后的模型在仿真平台运行,高价值数据反馈至样本库[11] - 为配合区域仿真,公司构建世界模型3D资产库,可根据训练需求将资产注入仿真世界作为交通参与智能体[12] 算力资源配置 - 理想汽车总算力达到13EFLOPS,其中10EFLOPS用于训练,3EFLOPS用于推理[13] - 公司拥有5万张训练和推理卡,推理卡算力等效3万个L20,训练卡算力等效2万个H20[13] - 在视觉语言行为模型时代,推理算力尤为重要,缺乏推理卡将无法生成仿真训练环境[13]
关于端到端和VLA岗位,近期的一些态势变化
自动驾驶之心· 2025-11-28 08:49
行业人才供需现状 - 自动驾驶行业高级岗位招聘困难,企业对经验丰富人才需求旺盛[2] - 行业技术发展从模块化转向端到端,从感知规控扩展至大模型领域,复合型人才稀缺[2] - 端到端VLA算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多技术融合[2] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA三大领域:VLM作为自动驾驶解释器、模块化VLA、一体化VLA及推理增强VLA[2] - 配套理论基础涵盖Vision/Language/Action三大模块、强化学习、扩散模型等核心技术[2] - 设置大作业章节指导学员从零搭建VLA模型及数据集[2] - 授课团队包括清华大学硕士生咖喱,在ICCV/IROS/EMNLP/Nature Communications发表多篇论文[8] - 团队成员Max在EMNLP/IROS/ICCV/AISTATS发表论文,GitHub开源项目总Star数超2k[8] - 团队成员Eric在RAL/IROS/EMNLP发表论文,专注在线建图感知与VLA算法预研[11] 端到端与VLA自动驾驶课程 - 课程覆盖端到端自动驾驶宏观领域,重点讲解一段式/两段式算法与理论基础[12] - 核心技术包括BEV感知、大语言模型、扩散模型和强化学习[12] - 设置两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法[12] - 授课老师Jason具备C9本科+QS50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家[14] - 教师团队拥有端到端算法量产交付经验,主持过多项自动驾驶感知产品研发[14] 课程参与门槛 - 学员需自备GPU,推荐算力在4090及以上级别[15] - 要求具备自动驾驶基础模块知识,熟悉Transformer大模型、强化学习、BEV感知等概念[16] - 需掌握概率论、线性代数基础及Python/PyTorch编程能力[16]
下周六具身一场深度直播:VLA与RL的落地之问!
自动驾驶之心· 2025-11-28 08:49
直播核心主题 - 探讨视觉语言动作模型算法与强化学习落地问题 [2][3][6] 讨论议题 - 视觉语言动作模型架构和模型存在的痛点 [6] - 提升机器人全身运动控制性能的方案进化空间 [6][15] - 视觉语言动作模型结合强化学习实际上机的策略、硬件选择及轻量化方法 [6][15] 参与嘉宾 - 隋伟 地瓜机器人算法副总裁 [9] - 张妮 北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才 原力灵机合伙人 [13] - 于超 清华大学博士 即将加入清华深研院任助理教授 担任主持 [15]
自动驾驶之心企业服务与咨询正式推出!
自动驾驶之心· 2025-11-28 08:49
公司业务发展 - 公司创业前两年专注于C端市场,为自动驾驶与具身智能领域研发近50门课程 [1] - 公司从今年初始开始收到大量企业服务需求,业务转向B端市场 [1] - 公司正式推出企业服务与咨询业务,旨在助力客户技术路线升级、团队人员升级和提供决策参考 [1] 公司资源与能力 - 公司已积累近3年行业咨询与培训经验 [1] - 公司储备大量专家人才库 [1] - 公司全平台粉丝数量近40万 [1] 企业服务范围 - 公司企业服务包括品牌宣传、产业咨询、技术培训和团队升级 [4] - 公司已与国内多个高校、职业院校、Tier1、主机厂及具身机器人公司建立企业合作 [2] - 公司期望触达更多需要升级的企业,推动行业进步 [2]
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-11-28 08:49
算法核心原理 - Flow Matching是一种生成式模型,旨在从随机输入生成与目标数据集相似的样本[3][4] - 与直接学习随机数据到目标数据的映射不同,该算法通过学习一个“行驶方向”或速度场,引导随机点逐步移动到目标分布区域[12][14] - 训练时在源点到目标点的连线上采样中间点,并学习其朝向目标点的移动方向,推理时从随机点出发,沿学习到的方向场移动,最终收敛到目标分布[16][17] 技术优势与比较 - 相比自回归模型逐像素生成效率低的问题,Flow Matching通过一次生成关联较小的区域来平衡效果与效率[9][10] - 相较于扩散模型的多步迭代降噪,Flow Matching提供了一种更直接高效的生成方案,已被Stable Diffusion 3、Meta MovieGen等应用[12] - 该算法能有效避免模型输出因可能性过多而退化为多种可能状态平均值的问题,生成质量更高[7][11] 代码实现与实战 - 基础实现包含生成随机源点、与目标点线性插值得到中间点、训练网络预测速度场并与真实方向计算损失等关键步骤[18][19] - 带提示词的生成模型可通过在预测网络中增加提示词输入实现,将生成过程约束到特定条件或区间[24][26] - 在MNIST手写数字生成任务中,采用UNet作为骨干网络以融合多尺度特征,并改用自适应步长ODE求解器以提升生成精度[32][34][36] 行业应用与前景 - 端到端自动驾驶算法工程师等岗位薪资范围达50-80K,显示市场对相关技术人才需求旺盛[50] - 行业课程涵盖从算法框架、强化学习应用到轨迹优化、模型部署等量产经验,旨在培养面向就业的实战能力[48][49] - 量产专家分享的导航信息编码、时空联合规划兜底等经验,直接关联算法在真实场景中的落地优化[47][49]
毫末智行突然原地解散!宇宙第一正式下线
自动驾驶之心· 2025-11-27 08:04
公司运营状况 - 毫末智行于11月22日正式解散,公司账户已冻结,赔偿方案尚未公布 [2][3] - 公司自2023年起经历大规模人员流失,去年职能部门裁员约1/3甚至近半,2024年包括技术副总裁、产品副总裁、品牌官及整个公关团队在内的多名核心骨干离职 [5] - 公司官方公众号自2024年6月起已无自身资讯更新,最新内容停留在10月1日的节日海报 [6] 公司技术发展历程 - 公司成立于2019年11月29日,前身为长城汽车2015年成立的智能驾驶系统开发部 [6] - 2020年11月推出首款末端物流自动配送车“小魔驼”,2021年12月发布自动驾驶数据智能体系MANA(雪湖) [6] - 截至2023年,MANA学习时长超62万小时,支撑感知、认知、决策等技术升级 [6] - 2023年4月11日发布自动驾驶生成式大模型DriveGPT(雪湖·海若) [8] - HPilot辅助驾驶系统3.0版本已打通高速与城市场景 [9] - 公司选择高通Snapdragon Ride计算平台,成为行业首款落地高通自动驾驶芯片8650的车型 [10] 行业动态与市场影响 - 2024年3月,元戎启行开始为某主机厂提供包括无图城区NOA技术方案在内的端到端智能驾驶方案 [9] - 毫末智行解散后,社交媒体上出现相关车型用户对产品后续使用体验的担忧和不满 [11]
面向工业界的3DGS全栈学习路线图(前馈GS等)
自动驾驶之心· 2025-11-27 08:04
课程核心观点 - 3D高斯泼溅技术领域技术迭代速度极快,涵盖静态重建、动态重建、表面重建及前馈模型等多个方向[1] - 行业存在理论与实践结合的学习门槛,缺乏系统化的学习路径[1] - 课程旨在提供从原理到实战的完整3DGS技术栈学习方案,由工业界算法专家讲授[1] 课程大纲与内容 - **第一章:背景知识**:涵盖计算机图形学基础、三维空间表达、渲染管线及3DGS开发工具如COLMAP、Gsplat,并设置基于3D Real Car模型的实战作业[5] - **第二章:原理和算法**:深入讲解3DGS原理、核心伪代码及动态重建、表面重建等前沿算法,实战采用英伟达开源3DGRUT框架[6] - **第三章:自动驾驶应用**:聚焦Street Gaussian、OmniRe、Hierarchy UGP三篇工作,实战使用DriveStudio平台[7] - **第四章:研究方向**:探讨COLMAP扩展、深度估计、Relighting等方向,分析其工业界应用与学术前景[8] - **第五章:前馈3DGS**:梳理前馈模型发展历程与原理,讲解AnySplat和WorldSplat等最新算法[9] - **第六章:答疑交流**:通过线上形式讨论行业岗位需求、技术痛点等开放性问题[10] 课程安排与面向人群 - 课程为期两个半月,采用离线视频教学结合VIP群答疑模式,章节从12月1日起分阶段解锁[12] - 面向具备GPU算力、计算机图形学基础、Python/PyTorch能力的学习者,目标人群覆盖实习、校招、社招阶段[14] - 讲师为QS20硕士,现任Tier1厂商算法专家,拥有三维重建及自动驾驶仿真引擎开发经验[2]
闭环训练终于补上了!AD-R1:世界模型端到端闭环强化学习新框架(澳门大学&理想等)
自动驾驶之心· 2025-11-27 08:04
行业技术趋势 - 世界模型成为自动驾驶领域关键发展方向,具备数据生成、预训练、闭环仿真和轨迹预测等核心能力[1] - 行业领先公司积极布局世界模型技术:小米用于数据生成和闭环仿真,蔚来和华为宣布基于世界模型量产,理想汽车提出从数据闭环走向训练闭环的技术路径[1] - 中科院和华为引望提出的DriveVLA-W0模型利用7000万数据验证了自动驾驶模型的data scaling law,引发行业广泛关注[1] 技术瓶颈识别 - 现有强化学习世界模型存在系统性"乐观偏差"问题,仅基于安全专家数据训练,无法预测错误行为后果[2] - 当输入不安全轨迹时,模型会幻想不切实际的安全未来(如障碍物消失、道路被忽视),而非预测即将发生的故障[2][7] - 这种"无法想象失败"的特性使世界模型难以成为学习稳健驾驶策略的可靠评估器[2] 解决方案创新 - 提出基于公正世界模型的后训练策略优化框架,通过反事实合成流水线生成包含合理碰撞和偏离车道事件的训练样本库[3] - 创新性引入轨迹感知门控模块和自车轨迹保真度损失,确保模型预测始终忠实于指令轨迹[10][25][26] - 构建风险预测基准(RFB)系统量化模型预测灾难性故障能力,为行业提供关键评估工具[15] 技术架构设计 - AD-R1框架包含两大核心模块:新型公正世界模型设计和强化学习框架集成[14] - 公正世界模型基于I²-World高效架构扩展,采用两阶段设计:场景Token化和自回归预测[17][22] - 训练数据混合80%真实nuScenes数据与20%合成反事实数据,实证验证最优比例平衡故障样本与真实驾驶动态[44] 性能验证结果 - 公正世界模型在风险预测基准上表现优异:G-IoU达40.21%,DAF达25.10%,显著优于DOME和I²-World基线模型[47][48] - 后训练优化使两个基线模型的规划决策综合指标(PDMS)分别实现1.7%和1.1%的绝对提升[15][49] - 消融实验证实三大核心组件协同作用:反事实合成带来最关键提升,模型优化增强因果保真度,4D奖励实现最优性能[51][52] 应用价值体现 - 框架具备即插即用特性,可提升任何驾驶智能体的安全性,在复杂仿真场景中大幅减少安全违规事件[3][9] - 4D奖励建模基于物理的丰富基础,能捕捉安全性、舒适性与任务进度,超越传统2D BEV方法的限制[35] - 该方法使智能体能够在安全离线环境中从大量想象故障中学习,为现实世界自动驾驶提供关键能力[15]