Workflow
自动驾驶之心
icon
搜索文档
输出你的insights,我们在招募这些方向的合伙人......
自动驾驶之心· 2025-12-18 17:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突破。后面我们将陆续为 大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 联系我们 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 ...
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 17:35
文章核心观点 DeepSeek-V3.2通过三大核心技术突破,在多项关键性能上追平甚至超越了顶级闭源大语言模型,证明了开源模型通过架构创新、算力投入与数据工程的结合,完全有能力挑战闭源模型的主导地位,为开源模型的发展树立了新的里程碑 [2][43] 开源模型的痛点与破局方案 - **传统开源模型面临三大核心困境**:在架构层面,依赖标准注意力机制导致长序列计算复杂度高(O(L²)),推理速度慢 [7];在资源分配上,后训练阶段算力投入不足,导致数学推理、代码生成等硬核任务性能难以提升 [7];在智能体能力方面,在工具使用、场景泛化和指令遵循等关键指标上与闭源模型存在明显差距 [7] - **DeepSeek-V3.2的针对性破局方案**:通过创新注意力机制解决效率问题,通过加大后训练算力投入提升硬核性能,通过大规模智能体任务合成流水线强化工具使用与泛化能力 [8] 核心技术解析:DeepSeek稀疏注意力(DSA) - **核心创新与效率提升**:引入DeepSeek稀疏注意力(DSA)机制,通过“闪电索引器+细粒度token选择”的双组件设计,将核心注意力计算复杂度从O(L²)降至O(Lk)(k远小于序列长度L)[10][11] 对于128K长度的长序列,k值通常设置为2048,仅需处理传统计算量的1.6%(2048/128000),效率提升极为显著 [15] - **闪电索引器设计**:采用少量索引头(H¹)和FP8精度进行计算,相较于传统机制的FP16/FP32精度,计算量显著降低,同时通过特定计算逻辑生成索引得分,兼顾效率与准确性 [12][13] - **两阶段训练策略**:训练分为密集预热和稀疏训练两个关键阶段,确保DSA在长上下文任务中实现端到端显著提速,且在短文本任务上未出现性能退化 [17][19][20] 核心技术解析:可扩展强化学习框架 - **算力投入**:将后续训练的算力预算提升至预训练成本的10%以上,通过稳定的训练框架充分释放算力价值,实现了推理性能的跨越式提升 [21] - **高性能变体成果**:推出高性能变体DeepSeek-V3.2-Speciale,该变体在IMO 2025、IOI 2025、ICPC世界总决赛2025等顶级赛事中均斩获金牌,性能比肩Gemini-3.0-Pro,成为首个在国际顶级竞赛中达到金牌水平的开源模型 [23] 核心技术解析:大规模智能体任务合成 - **冷启动阶段**:采用DeepSeek-V3的方法论,通过提示工程引导和数据混合采样,将模型的推理能力与工具使用能力在训练初期进行对齐和融合,为后续强化学习提供高质量的初始策略 [25][29][35] - **大规模任务合成流水线**:构建自动化智能体任务合成流水线,生成大规模、多样化、高质量的智能体训练数据,具体包括通用智能体、搜索智能体、代码智能体和代码解释器智能体等类型 [30][32][36] - **策略成效**:系统性提升了模型在工具使用场景中的泛化能力与指令遵循性,在MCP-Universe、MCP-Mark等未见过的工具使用基准测试中表现出色,证明了其能将推理策略泛化到域外的智能体场景 [33][36] 模型实测表现 - **推理能力**:在MMLU-Pro(85.0)、GPQA Diamond(82.4)等通用基准上与GPT-5-High水平相当 [39][40] 在数学领域,AIME 2025通过率达93.1%,HMMT 2025二月赛通过率92.5%,均处于开源模型前列 [39][40] - **代码能力**:在LiveCodeBench的COT模式下通过率83.3%,Codeforces评级达2386分,在SWE-Verified(软件工程师验证基准)中解决率73.1%,显著优于其他开源模型 [39][40] - **工具使用能力**:在中文搜索基准BrowseCompZh中通过率达65.0%,在τ²-bench中通过率80.3%,在MCP-Universe中成功率45.9%,大幅缩小了与闭源模型的差距 [39][41] - **成本效率**:通过DSA机制,模型在H800 GPU上的推理成本显著低于前代产品,长序列解码时的成本优势尤为明显 [27][41]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
纯图像理解的时代该翻篇了!MMDrive:给自动驾驶装上「多模态大脑」
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 传统自动驾驶视觉语言模型在复杂真实路况中存在三维感知能力不足、语义融合有限、关键信息提取效率低等瓶颈,需要从“图像理解”向“场景理解”进行范式转换 [2][3] - 研究提出的MMDrive模型通过融合多模态信息、引入文本导向的多模态调制器和跨模态抽象器,构建了更立体、更智能的场景理解能力,在权威基准测试中性能领先,尤其在复杂和低能见度场景中表现出更强的鲁棒性 [5][8][30] - 该技术框架为自动驾驶高阶感知、仿真测试、智能交通及驾驶辅助等应用提供了新的可能性,代表了行业技术发展的一个重要方向 [31] 传统方法的局限性 - 主流自动驾驶视觉语言模型采用“图像+文本”双分支架构,视觉与文本特征仅进行硬拼接,缺乏深度交互,限制了跨模态语义对齐 [3] - 模型基于二维图像,难以表达深度、空间布局等关键三维信息,在遮挡、恶劣天气等复杂动态环境中关键信息提取效率低 [3][5] - 仅依靠前向摄像头图像,在遮挡等情况下无法准确判断场景全貌(如后方车辆状态),揭示了平面视觉感知的固有缺陷 [5] MMDrive的核心技术突破 - **多模态信息融合**:模型引入了三类互补信息源——提供稠密三维空间结构的占据栅格地图、提供精确几何与深度信息的激光雷达点云,以及通过两阶段策略生成的高层语义文本场景描述,共同构建立体场景表征 [12][15] - **文本导向的多模态调制器**:该组件能根据输入文本问题的语义内容,动态调整不同模态信息的融合权重,实现问题感知的自适应特征融合,避免信息稀释 [17][20] - **跨模态抽象器**:该组件通过学习一组“抽象令牌”来提取跨模态的关键信息,形成紧凑的语义摘要,使大语言模型能更高效地聚焦核心内容,实验表明16个抽象令牌是性能最佳配置 [21] 实验结果与性能表现 - **定量结果领先**:在DriveLM基准测试中,MMDrive在BLEU-4、METEOR、ROUGE-L、CIDEr四项指标上分别达到54.56、41.78、75.27和3.63,全面超越对比模型 [22] - **细分任务优势明显**:在NuScenes-QA基准测试中,MMDrive在计数、状态查询、比较类问题上表现突出,其整体准确率达到62.7,显著高于其他对比方法 [24] - **定性结果稳健**:在夜间、雨天等低能见度场景中,模型仍能保持较高的判断准确率,并能识别传统方法易忽略的细节(如与背景颜色相近的标志牌、远处小型物体) [26][30] 应用前景与未来展望 - **自动驾驶系统**:可作为高阶感知模块,用于复杂路口理解、施工区识别和异常事件判断,并为预测与规划模块提供丰富的语义场景表示 [31] - **仿真与测试**:可用于生成高质量场景描述以测试系统语义理解能力,并支持多模态问答用于驾驶员行为分析与系统评估 [31] - **智能交通与车路协同**:通过车路多模态信息融合提升全域交通态势感知,支持自然语言交互的交通指挥与调度系统 [31] - **驾驶教育与辅助**:为驾考模拟与危险场景教学提供可解释的问答支持,增强ADAS系统的交互能力 [31] - **技术演进方向**:未来研究将围绕长时序预测与协同规划、模型轻量化以适应车载部署,以及生成可解释的决策推理链条展开 [31]
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 08:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 08:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]
许华哲,抓紧时间慢慢等具身的未来......
自动驾驶之心· 2025-12-18 08:06
作者丨 许华哲 编辑丨具身智能之心 本文已经得到许华哲博士的授权,未经允许,不得二次转载。 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 昨天看到了许华哲老师在社交媒体上的分享,关于数据、量产、本体和场景。类似的观点,今年IROS圆桌期间,许博也站在智能第一性原理上,将具身的未来发展 方向划分为欲望、先验和经验三个模块。 但这极快的变化速率又显得格外不协调,因为我没在任何地方看到人形机器人真正服务人类。快递分拣平均速率是1800件每小时,汽车工厂要万分之一甚至十万分 之一的失误率。达成的那一天似乎一直在一个不远不近的地方招手:隔三差五有人宣称任务已经解决,但和跳舞的同行不同,我们只能在视频里见到它。 达到实时性、准确性、5w公里接管,自驾用了10几年,而具身还需要继续努力。 就像前面说的速率上的不协调,回望2025的具身智能,我发现了好几个这样不协调的相互映照的"对子"。当然也有个人的主观臆断,所以也请担待冒失的地方。 一、两个世界的机器梦 欲望。 在做智能体的时候,无论是物理的还是虚拟的,总觉得现在机器学习没有自己的学习欲望。我们可以设想一下,能不能给机器人 ...
清华&小米DGGT:0.4秒完成4D高斯重建,性能提升50%!
自动驾驶之心· 2025-12-18 08:06
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上表现卓越,并具备强大的场景编辑功能,有望成为自动驾驶仿真与数据合成的核心工具 [1][6][21] 技术原理与架构 - DGGT采用Pose-Free设计,将相机位姿从输入转为模型输出,端到端预测内外参,从而打破跨数据集部署的校准壁垒 [6][8] - 模型采用ViT编码器融合DINO先验,通过多头联合预测结构,一次前向即可输出相机位姿、4D Gaussian、寿命、动态/运动、天空等完整的4D场景状态 [10][12] - 系统通过Lifespan Head建模场景随时间的外观演变,并通过单步扩散精修抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的高保真重建质量,在速度与精度上优于前向与优化方法 [8][11] - **关键指标领先**:在Waymo数据集上,其深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,均优于对比方法 [11] - **零样本泛化能力强劲**:仅在Waymo上训练,无需微调即在nuScenes和Argoverse2数据集上实现超越SOTA的泛化性能,例如在nuScenes上LPIPS从0.394降至0.152(下降61.4%)[13][15] 核心优势与特点 - **强大的跨数据集泛化**:Pose-Free设计减少了对固定拍摄轨迹与相机配置的依赖,使模型在不同传感器布置下仍能维持良好性能,实现了跨域鲁棒性 [15] - **卓越的可扩展性**:支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值指标保持稳定,而对比方法性能明显下滑,更适合大规模工程化处理 [16] - **高度可编辑的4D场景生成**:模型输出包含相机姿态、深度、动态分割、3D Gaussian追踪等可编辑资产,支持在Gaussian层面直接对车辆、行人等实例进行添加、删除、移动等操作,扩散精修模块可自动补洞与平滑边界 [6][20][21] 组件功能与消融验证 - **Lifespan Head价值**:该组件负责刻画静态区域在不同时间的外观变化,消融实验显示,去除后PSNR从27.41大幅下降至24.21,证明其对维持时空一致性与真实感至关重要 [11][17] - **Motion Head作用**:负责预测像素级3D位移,将同一物体在相邻帧中对齐并插值,确保了运动物体在时间上的连续性与视觉自然度 [19] - **扩散精修效果**:虽然在定量指标上提升较小,但能有效抑制遮挡/插值产生的伪影与细节缺失,显著改善视觉效果,更适配下游任务 [11]
AI Day直播 | 自动驾驶空间检索新范式SpatialRetrievalAD
自动驾驶之心· 2025-12-17 11:18
文章核心观点 - 现有自动驾驶系统依赖实时车载传感器,在视野受限、遮挡或极端天气条件下性能受限,而人类驾驶员具备利用道路记忆的能力 [2] - 复旦大学等机构提出一种新范式,通过引入离线检索的地理图像(如谷歌地图)作为额外输入,赋予自动驾驶模型“回忆”能力,这是一种低成本、高鲁棒且即插即用的感知增强方案 [2] - 该方法在多个核心自动驾驶任务上建立了基准测试,实验表明能有效提升部分任务的性能,并将开源相关代码、数据和基准以支持后续研究 [3] 技术方案与数据构建 - 技术核心是将离线检索的地理图像作为额外输入引入自动驾驶系统,图像可从谷歌地图API或已存储的自动驾驶数据集中轻松获取,无需额外传感器 [2] - 在实验中,通过谷歌地图API检索地理图像,扩展了nuScenes数据集,并将新数据与自车轨迹进行对齐 [3] - 构建了名为“nuScenes-Geography”的离线记忆库,数据来源包括街景、卫星图和历史数据 [10] 性能提升与实验结果 - 该方法在五个核心自动驾驶任务上建立了基准:目标检测、在线建图、占用预测、端到端规划和生成式世界模型 [3] - 在线建图任务的mAP提升了13.4% [3] - 占用预测任务中,静态类的mIoU提升了2.57% [3] - 夜间端到端规划任务的碰撞率从0.55%降至0.48% [3] - 大量实验表明,该扩展模态能够提升部分任务的性能 [3] 研究影响与后续计划 - 该工作通过空间召回(Spatial Retrieval)的方式,大幅提高了感知、决策和生成式仿真性能 [10] - 研究团队将开源数据集构建代码、数据及基准测试,旨在为这一新自动驾驶范式的后续研究提供支持 [3] - 该研究被总结为“长时记忆世界模型,赋予决策系统‘回忆’能力” [7]
没有好的科研能力,别想着去业界搞自驾了......
自动驾驶之心· 2025-12-17 11:18
自动驾驶高端人才市场现状 - 市场上高端自动驾驶人才仍然非常抢手,多家新势力及头部Tier 1公司为硕士毕业生提供的年薪包已达到70万元,以争夺人才(非顶级特殊计划岗位)[2] - 许多参与过工业界预研岗位的学生在毕业前已被公司内定,反映出市场对具备实战经验人才的强烈需求[2] 企业对人才的核心能力要求 - 企业对人才的核心要求是“具备完整的科研能力”,而不仅仅是阅读论文[2] - 完整的科研能力具体指:能发现问题、定义问题、提出解决方案,并能形成方法论输出观点[2] 自动驾驶领域科研人员面临的普遍难题 - 导师不熟悉自动驾驶方向,学生需自行调研领域[7] - 不清楚领域的痛点与难点所在[7] - 缺乏真实数据、算力资源以及明确的改进方向,导致研究停滞不前[7] - 实验设计能力不足,无法取得有效结果,缺乏解决问题的能力[7] - 在论文写作方面存在困难[7] 自动驾驶之心提供的科研辅导服务概览 - 提供1对1科研辅导业务,旨在帮助学生快速提升科研能力[3] - 辅导覆盖自动驾驶多个前沿技术方向,包括端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、BEV感知、Occupancy Network、轨迹预测、运动规划、扩散模型等[4] - 提供的服务内容包括论文选题、论文全流程指导、实验指导以及申博指导[12] - 支持不同级别的论文发表需求,涵盖自动驾驶顶会/顶刊(如CVPR、AAAI)、SCI各分区、中科院分区期刊、EI/中文核心以及毕设、比赛等[13] - 宣称其中稿率很高,已有辅导成果被CVPR、AAAI、ECCV、CoRL、ICLR等多个顶级会议或期刊收录[9] - 辅导价格根据目标论文级别不同而有所差异[10]