自动驾驶之心
搜索文档
滴滴最近在加速了!ColaVLA:潜在认知推理的分层并行VLA框架(清华&港中文&滴滴)
自动驾驶之心· 2025-12-30 17:20
>>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Qihang Peng等 编辑 | 自动驾驶之心 滴滴最近开始加速算法预研了,清华&港中文mmlab&滴滴最新的VLA工作 - ColaVLA。 很有意思的一篇工作,提出"Cognitive Latent Reasoner"实现驾驶场景理解、 关键目标识别、Latent Rethinking和驾驶决策的生成,"Hierarchical Parallel Planner"利用多尺度的Target和驾驶决策实现分层并行的轨迹解码,由粗到细的生成更优的自 车轨迹。开闭环上的结果还不错,比ImpromptuVLA高一些。 自动驾驶需要从复杂的多模态输入中生成安全可靠的轨迹。传统模块化流水线将感知、预测和规划分离开来,而近年来的端到端(E2E)系统则对这些任务进行联合 学习。 视觉-语言模型(VLMs)通过引入跨模态先验知识和常识推理进一步丰富了这一范式,但当前基于VLM的规划器面临三大核心挑战: 本文提出ColaVLA,一种统一的视觉-语言-动作框架,该框架将推理过程从文本域迁移至统一潜变量空间,并与分层并行轨迹解码器相结合。认知潜变量推理器通过 自车 ...
正式开课!三个月搞懂自动驾驶世界模型技术栈
自动驾驶之心· 2025-12-30 17:20
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型的愿景是理解并改变物理世界,核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力。 2025年6月yann lecun发布V-JEPA 2,2025年8月DeepMind发布Genie 3,2025年11月李飞飞发布Marble。而在自动驾驶领域,关于世界模型的探索也一直没有停止。 最常见的方向是 视频生成 ,也是学术界和工业界探索最多的领域,像wayve的GAIA-1/2/3,上交CVPR'25的工作UniScene等等。其次是 OCC生成 ,比较经典的有 OccWorld、OccLLaMA,还有最近西交的SOTA工作II-World。 不少公司基于这些开源算法搭建自己的云端/车端世界模型,用于长尾数据生成或者闭环仿真/评测。一些公司也在尝试基于世界模型直接赋能车端驾驶能力。 但世界模型的定义仍然很模糊,生成 = 世界模型? 生成 + 重建 = 世界模型。 对于新入行的同学来说,总是搞不明白。 不少同学跟柱哥吐槽,相当多的时间"浪费"在踩 坑上了。 想要搞懂世界模型,完成数据生成、 ...
死磕技术的自动驾驶黄埔军校,元旦大额优惠......
自动驾驶之心· 2025-12-30 17:20
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近一个月,柱哥在星球内更新了很多最新的行业动态: 同时,还有很多的答疑解惑: 近期柱哥也会邀请嘉宾在星球内部和大家聊一聊最近的一些技术进展,欢迎大家加入自动驾驶之心知识星球。 我们准备了大额新人元旦优惠...... 扛内卷,一个足够有料的社区 Waymo最新的基座模型分享,快慢双系统+数据飞轮; 2025地平线技术生态大会上,苏箐关于自驾的一些insights; 自动驾驶世界模型论文与代码汇总; 英伟达2025年技术图鉴,自驾、具身、大模型全面开花; 理想披露了的最新技术信息,从数据闭环到训练闭环。 对于很多想入门的同学来说,试错成本有点高。没时间和缺乏完整的体系是最大问题,这也容易导致行业壁垒 越来越高,如果想要卷赢那就更加困难了。 所以我们联合了诸多学术界和工业界的大佬,共同打造了我们维护三年之久的『自动驾驶之心知识星球』! 星球目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人 了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分 ...
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2025-12-30 08:28
作者 | TryMyBest 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1983151280315716691 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 本文主要概述一下地平线一段式端到端方案(HSD)的两篇核心文章: DiffusionDrive + ResAD。 DiffusionDrive给读者们梳理了整体pipeline,ResAD则着重于性能提升的关键:轨迹残差设计。两篇文章都很精彩,也感谢地平线的分享,给从业者带来很多启发。 轨迹生成 本文核心想说的就是轨迹生成部分,所谓"Truncated Diffusion"。文章指出人类驾驶行为并不是随机分布的,具备fix patterns。从这个观察出发,文中 DiffusionDrive 图1: diffisonDrive整体架构 DiffusionDrive的整体架构如图1,可以拆成三部分:1. 感知信息 2.导航信息 3.轨迹生成 感知信息 感知信息本 ...
搞自驾这七年,绝大多数的「数据闭环」都是伪闭环
自动驾驶之心· 2025-12-29 17:17
作者 | 李众力 编辑 | 自动驾驶之心 原文链接: https://www.zhihu.com/question/552466858/answer/1973504909879030493 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 2025 年年底了,我也来回答一下。 先说结论: 据我能接触到的一圈国内玩家,大家嘴里的"数据闭环",绝大多数还是各个算法团队内部的"小闭环",离当年 PPT 里畅想的那种"数据直接解决问题"的 大闭环,还有好几层台阶。 先简单说下我自己的背景(方便大家判断我是不是在瞎说) 我从事自动驾驶行业大概 7 年多了,从最早那种"开完车工程师拎着硬盘,从工控机上拔下来,抱着去机房拷数据"的年代一路干到现在。 这几年主要在一家 互联网大厂的物流无人车项目 里,从封闭园区到高速公路再到城市公开道路,从载人到拉货都有涉及,负责整车的数据体系和质量体系搭建,带 团队做的事情大致包括: 日常工作基本就是跟各种 log、Trigger、标注平台、仿真平台 ...
为什么世界模型对行业产生了这么大的影响?
自动驾驶之心· 2025-12-29 17:17
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型的愿景是理解并改变物理世界,核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力。 2025年6月yann lecun发布V-JEPA 2,2025年8月DeepMind发布Genie 3,2025年11月李飞飞发布Marble。 而在自动驾驶领域,关于世界模型的探索也一直没有停止。最常见的方向是 视频生成 ,也是学术界和工业界探索最多的领域,像wayve的GAIA-1/2/3,上交 CVPR'25的工作UniScene等等。其次是 OCC生成 ,比较经典的有OccWorld、OccLLaMA,还有租金西交最新的SOTA工作II-World。还有一个领域是做 Lidar点云生 成 ,或者视觉和点云的联合生成,比如LiDARGen、LiDARCrafter等等。 不少公司基于这些开源算法搭建自己的云端/车端世界模型,用于长尾数据生成或者闭环仿真/评测。一些公司也在尝试基于世界模型直接赋能车端驾驶能力。 但世界模型的定义仍然很模糊,生成 = 世界模型? 生成 + 重建 = 世界模型。 对 ...
从自驾到具身:更现实的商业化路线不是一直等「完美单体」
自动驾驶之心· 2025-12-29 11:19
这两年"具身智能"很热。热到一个现象越来越常见:一提具身智能,很多人脑子里立刻浮现人形机器人;一谈商业化,讨论就自动切换到"什么时候能有一台全能保 姆机器人走进千家万户"。仿佛只有等到单体足够通用、足够聪明、足够可靠,而且最好完全无人,才配谈规模化。 但如果把镜头从"单体能力"挪到"商业路径",会更容易看到另一条更现实的路线: 具身智能的第一波商业化,很可能不会等到完美单体,而会像自动驾驶一样,先把 一套体系跑通,再让单体在运营中持续变强。 所谓"体系",不是一句口号,而是一套可复制的链路:现场有能动手的物理执行单元,大部分时间自动完成高频流程;少数关键卡点允许远程短时介入兜底;云端提 供更强的模型能力(VLA/多模态/规划与质检),按需付费、持续升级;全流程可审计、可追责、可复盘;数据回流反哺模型与流程,让远程介入越来越少、越来越 短;最终提升一个人覆盖多个智能体的能力(NVM),把成本摊薄到商业化成立的区间。 把这条链路看清楚,再回头看"从自动驾驶到具身智能",会发现变化的不是"有没有人形",而是同一套方法论在扩场景:从"开车"扩展到"干活",从"道路"扩展到"家 庭、楼宇、园区、城市服务",从"车辆"扩 ...
比亚迪组织架构地震!撤销第13事业部......
自动驾驶之心· 2025-12-29 11:19
来源 | 焉知汽车 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 12月27日,比亚迪 集团启动新一轮组织架构优化, 核心变革聚焦汽车事业群,原第十三事业部正式 撤销,其模具与车灯业务分别划归汽车工程研究院 (L1事业部级)及第十一事业部(L1事业部级)。 同步落地的人事任免与事业群体系重构,标志着比亚迪在组织效率提升与资源整合上迈出关键一步,旨 在进一步巩固其在新能源汽车领域的领先地位。 调整细节:剥离非核心职能,强化垂直管理 此次调整的核心是对原第十三事业部的拆分重组。公开资料显示,第十三事业部前身为2005年成立的 弗迪精工,长期聚焦汽车零部件研发与制造,核心业务包括模具设计制造(覆盖整车冲压、焊接等工艺 模具开发)、车灯及注塑配件生产(含矩阵式LED大灯、贯穿式尾灯等)、轨道交通零部件(如云轨减 震组件)。 调整后,其模具业务划归汽车工程研究院(L1事业部级),车灯业务则整体并入第十一事业部(L1事 业部级)。值得关注的是,第十一事业部原本负责整车冲压、焊接 ...
研二上就要结束,快的人已经在准备实习了~
自动驾驶之心· 2025-12-29 11:19
这一年接触到了很多有科研需求的同学,主要有以下几个难题: 最快的提升方法则是跟着一个有经验的researcher一起工作,自动驾驶之心前面推出了1v1科研辅导业务,也欢 迎大家咨询了解。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近期末,有同学联系柱哥咨询明年暑期实习的事情,还比较发愁,一年半了到现在还没什么积累。后面还有 毕业小论文和大论文的事情,现在觉得时间有些紧迫感了。 这个时间点是有些尴尬的,研二下学期要做的事情会堆积在一起,尤其是研究生只有两年的同学。最近有几个 小论文已经投出去或发表的同学,柱哥也顺利的帮他们内推到了自驾的一些公司。这些公司的 要求其实并不 高,那就是"具备完整的科研能力",能对应完成和思考相应工作。如果缺乏这个,不敢轻易推荐给企业。 完整的科研能力代表能发现问题、定义问题、提出解决问题的方法、能形成方法论输出观点。这并不是简单的 读论文,很多同学都错判了这点。 主要辅导方向 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨 ...
市场正在惩罚只懂理论的端到端算法工程师......
自动驾驶之心· 2025-12-29 09:07
行业人才供需现状 - 中游车企和Tier1供应商正积极投入人力和资源跟进端到端自动驾驶技术,表明行业需求旺盛[1] - 市场面临算法人才短缺,面试候选人往往只懂部分技术或停留在论文层面,缺乏量产经验和优化能力[1] - 端到端岗位薪资很高,但缺乏能力相匹配的算法人才,凸显了高端技术人才市场的供需失衡[1] 核心技术栈 - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当下端到端自动驾驶落地最重要的技术栈[1] - 行业主流趋势是感知任务的合并与规控算法的学习化,如何高效合并感知任务和设计学习化规控模块成为各大公司核心技能[6] 课程核心内容与结构 - 课程为期三个月,包含七个实战项目,聚焦量产应用,从实战到落地层层展开[1] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等[1] - 课程大纲共八章,系统性地从概述、两段式/一段式框架、导航应用、强化学习、轨迹优化、兜底方案到量产经验分享[4][6][7][8][9][10][11][12][13] 技术方案详解 - 两段式端到端框架涉及感知与规划控制的信息传递,其优缺点将被详细分析,并通过经典的PLUTO算法进行实战[7] - 一段式端到端框架可实现信息无损传递,性能上优于两段式方案,课程将学习基于VLA、Diffusion等多种方案,并深入VAD系列[8] - 导航信息在自动驾驶中起引导、选路、选道作用,课程将介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式[9] - 纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,课程将重点介绍强化学习算法及其训练策略[10] - 轨迹输出优化项目将实战基于模仿学习的算法,重点介绍扩散模型和自回归算法,并在监督微调后结合强化学习[11] - 量产兜底方案采用时空联合规划,通过轨迹平滑优化算法保证输出轨迹的稳定可靠,涵盖多模态轨迹打分搜索与平滑算法[12] 课程实施与要求 - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年11月30日[14] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习与扩散模型理论基础,以及Python、PyTorch和MMDet3D框架使用能力[16] - 学员需自备GPU,推荐算力在RTX 4090及以上[16] - 课程计划于11月30日开课,按周或双周解锁新章节,预计三个月结课[14][15][17]