Workflow
自动驾驶之心
icon
搜索文档
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]
冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心· 2025-12-26 17:18
作者 | 郑纯然Range 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1921620079314961855 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 它并不完全是黑盒,最近NVIDIA有个工作CoT-VLA,就主要展示了VLA思维链并拆分为三层: 和人的思考模式真挺像的。 真正的挑战在于让模型学会泛化。 在遮挡/复杂背景/3D空间中的表现,关键是要把subgoal embedding设计好来保证泛化性。要保证subgoal embedding具有: 例如用cross-attention: 任务文本token attend到图像patch token,上面4条都能保证,可能效果就不错。 说不定,learning方法在复杂环境下反而更有优势。 昨晚睡前刷到一篇批判VLA的帖子,说"有些搞VLA公司又懒又蠢... (此处省略2000个字)",全篇非常犀利,我整理了下弗雷哥 (答主) 说的几个槽点: 肯定不能全盘否定 ...
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 11:32
来源 | 机器之心 原文链接: 刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型 后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本 质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前 的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切 换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新 ...
端到端下半场,如何做好高保真虚拟数据集的构建与感知?
自动驾驶之心· 2025-12-26 11:32
▍文章来源于 康谋自动驾驶 点击下方 卡片 ,关注" 康谋自动驾驶 " 公众号 获取更多自动驾驶资讯 随着自动驾驶技术的日益升级,以UniAD、FSD V12为代表的" 端到端 "架构正重构行业格局。这一架构试图通过 单一 神经网络 直接建立从 传感器输入 到 车辆控制 的映射,从而突破传统模块化累积误差的局限。 然而 端到端模型 对数据分布的 广度 与 深度 均有着高要求,尤其是对缺乏归纳偏置的 Transformer架构 而言," 数据 规模 "与" 场景覆盖度 "可谓直接决定了 模型上限 。 现实路测数据 面临极端的 长尾工况 数据局限,如实车采集" 采不到、标不准、测不起、太危险 "。在此背景下," 虚拟 数据集 "成为了大家关注的热点,通过构建涵盖极端天气、复杂交互及事故场景的高保真虚拟数据,我们不仅能够以 低成本、高效率 的方式生成 海量带标签的样本 ,更能为端到端模型提供 闭环训练环境 。虚拟数据集已不再是现实数 据的简单补充,而是训练 高阶端到端模型 不可或缺的一环。 为满足自动驾驶算法对 高质量数据资产 的迫切需求,并有效应对真实路测的局限,本文将全面阐述 高 保真虚拟数据 集SimData ...
前馈GS在自驾场景落地的难点是什么?
自动驾驶之心· 2025-12-26 11:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天有小伙伴在群里抛出这个问题,非常有建设性,分享给大家? 探讨feed-forward GS在自驾场景落地的难点目前在哪里? 目前来看Feed-forward的相关方法在点云精度还是差一点的,尤其是ff的方法在私有数据的域上精度不稳定。前馈方法的前景是广阔的,毕竟克服了per scene优化 的弊端,值得持续尝试预研和落地。 关于3DGS相关的技术栈,很多同学想入门却苦于没有有效的学习路线图:既要吃透点云处理、深度学习等理论,又要掌握实时渲染、代码实战。 为此自动驾驶之 心联合 工业界算法专家 开展了这门 《3DGS理论与算法实战教程》! 我们花了两个月的时间设计了 一套3DGS的学习路线图,从原理到实战细致展开。全面吃透 3DGS技术栈。 第二章则正式进入到3DGS的原理和算法部分。 整体上第二章的设计思路是带大家先打好基础,先详细梳理3DGS的原理部分及核心伪代码,接着讲解动态重建、 表面重建、鱼眼重建和光线追踪的经典文章和最新的算法,由点及面层层深入。实战我们选取了英伟达开源的3DGRUT框架,适合 ...
一个在量产中很容易被忽略重要性的元素:导航信息SD
自动驾驶之心· 2025-12-26 09:56
导航信息在自动驾驶中的应用与核心职责 - 导航信息SD/SD Pro已在许多量产方案上使用 提供车道、粗粒度路径点等信息 为车辆提供粗略的全局和局部视野 [2] - 导航模块的核心职责之一是提供参考线 这是下游规划与控制模块的强需求 能极大减轻规划压力 车辆只需在参考线基础上进行细化 [4] - 导航模块的另一核心职责是提供规划约束与优先级、路径监控和重规划功能 [5] 导航信息的具体功能与系统集成框架 - 导航信息能实现车道级的全局路径规划 搜索目标车道的最优车道序列 [6] - 导航信息能为行为规划提供明确的语义指导 方便车辆提前准备变道、减速、让行等操作 [6] - 在两段式系统框架中 导航信息输入到感知模型 输出导航路径 该路径再作为机器学习规划器的输入 用于预测自车行驶轨迹 [16] - 在一段式系统框架中 导航信息经过专用编码器编码后 与动态、静态信息一起作为输入 参与后续的模型优化 [21] 端到端自动驾驶课程核心内容概述 - 课程重点聚焦落地 内容涵盖一段式、两段式、强化学习、导航应用、轨迹优化及量产经验分享 [24] - 课程第一章概述端到端任务 介绍主流的感知模型一体化架构和经典的规控学习化方案 并对开源数据集和评测方式进行详细说明 [29] - 课程第二章介绍两段式端到端算法框架 包括其建模方式、感知与规划控制的信息传递方式、优缺点 并通过经典算法进行实战 [30] - 课程第三章介绍一段式端到端算法框架 该框架可实现信息无损传递 性能通常优于两段式 涵盖基于向量逻辑注意力、扩散模型等多种方案 [31] - 课程第四章专门讲解导航信息的量产应用 包括主流导航地图的格式与内容 以及导航地图在端到端模型中的编码与嵌入方式 [32] - 课程第五章介绍自动驾驶中的强化学习算法 旨在弥补纯模仿学习的不足 让机器学习因果关系以实现更好的泛化能力 [33] - 课程第六章进行基于神经网络的规划器项目实战 重点介绍基于扩散模型和自回归模型的模仿学习算法 以及后续的强化学习算法 [34] - 课程第七章讲解量产中的兜底方案——时空联合规划 介绍多模态轨迹打分搜索、轨迹平滑等后处理算法 以确保输出轨迹的稳定可靠 [35] - 课程第八章分享端到端量产经验 从数据、模型、场景、规则等多个视角剖析如何选用合适工具与方法以提升系统能力边界 [36] 课程安排与面向人群 - 课程为小班教学 仅剩10个招生名额 [24][26] - 课程开课时间为11月30日 预计三个月结课 采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [37] - 课程面向进阶学员 建议学员自备算力在4090及以上的GPU 并熟悉自动驾驶BEV感知、视觉Transformer、端到端等常见算法 [39] - 课程章节按计划解锁 例如第一章于11月30日解锁 第二章于12月7日解锁 后续章节依次在12月14日、12月21日、12月30日、1月15日、2月10日、2月24日解锁 [38][40]
一见Auto采访小米陈光的一些信息分享......
自动驾驶之心· 2025-12-26 09:56
以下文章来源于一见Auto ,作者易思琳 一见Auto . 汽车竞争中的野心、方法论与新秩序。21世纪经济报道旗下汽车报道品牌。 作者 | 易思琳 来源 | 见谈|小米陈光:我们不想制造技术焦虑了 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 理想汽车智驾团队从端到端+世界模型全面切向VLA(Vision Language Action),在算法架构中引入大语言模型(LLM)。和理想一样坚定选择VLA的还 有智驾供应商元戎启行。 行业里也有坚定的VLA反对派。华为表示,不会走向VLA,而是会坚定选择WA(World Action,世界模型)。和华为一样尝试去掉Language环节的还有小 鹏。 而在这场争鸣中,端到端仍展现出巨大的潜力,小米汽车就是在这一方向持续深耕的企业。 "现在竞争太激烈,大家会产生一些焦虑,倾向于通过各种方式或技术让用户觉得更先进。"小米汽车端到端负责人陈光告诉《21汽车·一见Auto》, "但无 论VA、WA还是VLA,在我看来其实都一样,都 ...
年末L4的商业化落地被九识悄悄打响了......
自动驾驶之心· 2025-12-25 17:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 柱哥上周末盘了部分L4公司的融资情况,有几家公司自动驾驶之心近期也在展开深度调研。 在低速物流赛道,像 九识、 新石器做的都还不错。 具体融资情况可以参考公众号的文章: 我们盘点了L4相关公司的融资情况...... 宏观层面上,L3牌照开始密集发放,L4市场端大量车型也相继推出,Robotaxi、无人配送、重卡、矿卡。很多L2的量产技术都在快速下沉到这些领域。 像OCC、 一段式/两段式端到端、无图感知、VLA等等。 就像柱哥之前分享的观点:智驾技术走向成熟,才是真正大规模量产的起点。 本月15日,我们注意到九识智能与东风达成了新的战略合作,其实也是在顺应这个趋势。在智能汽车产业进入深水区后,从传感器配置到地图的"轻"与"重"之分, 再到芯片的采用,主机厂的每一次合作选择,都呈现出对技术和成本的考量。 据悉,本次合作指向了载货车、环卫车、VAN车、客车等多个细分车型,显露出更强的商业化导向。 从技术和成本两个维度拆解,这一选择并非偶然。 "长期可用"——L4能力的工程化成熟度 对东风这样的央企而言,自动驾驶合 ...
华科&港大提出UniLION:基于线性组 RNN 的统一自动驾驶模型
自动驾驶之心· 2025-12-25 17:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhe Liu等 此外,UniLION 在广泛的核心任务中持续提供具有竞争力甚至最先进的性能,包括 3D 感知(如 3D 物体检测、3D 物体跟踪、3D 占用预测、BEV 地图分割)、预测 (如运动预测)和规划(如端到端规划)。这种统一的范式自然简化了多模态和多任务自动驾驶系统的设计,同时保持卓越的性能。最终,我们希望 UniLION 能为自 动驾驶领域的 3D 基础模型开发提供全新视角。 项目链接:https://github.com/happinesslz/UniLION 项目简介 UniLION 是一种基于线性组RNN(也可以看作为linear attention)的统一自动驾驶模型,它能够高效处理大规模 LiDAR 点云、高分辨率多视角图像和时间序列数据。 UniLION作为单一多功能架构,且无需显式的时序或多模态融合模块,便可无缝支持多种不同设置(即LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temp ...
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]