自动驾驶之心
搜索文档
某新势力智驾一号位的离职始末......
自动驾驶之心· 2025-10-11 07:32
核心观点 - 某新势力公司因近期智驾系统OTA事故导致其智驾业务负责人(智驾一号位)离职,此次事件暴露了公司从算法研发到量产机制存在的问题 [5][6] - 该公司在智能驾驶领域的竞争地位已从几年前与华为并驾齐驱的领先状态,滑落至当前不领先也未掉队的中间状态,对其品牌和销量构成潜在威胁 [6] - 行业竞争格局加剧,新势力自研智驾团队面临来自华为等其他新势力以及Momenta等头部智驾公司的前后夹击,算法领先优势正在缩小或丧失 [7] 人事变动与内部管理 - 智驾一号位的离职由近期OTA事故催化,其在公司内部的势态此前已被空降的世界模型负责人超越,核心算法研发权限被绕过 [6] - 公司BOSS在处理此次事故时表现出果断态度,旨在通过换帅寻求改变,但新负责人也面临巨大压力 [6] - 此次人事变动是去年类似OTA事故后(当时处理结果是技术开发部负责人被撤职、测试部门改组)的又一次问责 [5] 智能驾驶行业竞争格局 - 智能驾驶算法领域的竞争主体已不再局限于华为和新势力,Momenta、元戎、地平线、卓驭、博世等头部智驾公司已实现优秀性能表现,与新势力自研能力齐头并进甚至更优 [7] - 新势力自研智驾目前处于前后夹击的处境,若在算法上落后于头部智驾公司,将面临灾难性后果 [7] - 智驾能力是该公司品牌核心和卖车的重要招牌,其领先地位的动摇对车辆销量有重大影响 [6]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-11 07:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
研二多发几篇论文,也不至于现在卡的这么难受......
自动驾驶之心· 2025-10-10 12:00
文章核心观点 - 高质量科研论文对于计算机专业硕博研究生在就业和申博过程中至关重要,是证明科研或实战能力的关键指标[1] - 当前研究生在论文产出上面临导师放养、选题迷茫、框架混乱等普遍困境,导致论文发表困难[2] - 公司提供专业论文辅导服务,承诺通过系统化指导在较短时间内帮助学生完成高质量论文发表[3][4] 行业现状与需求 - 人工智能领域就业市场高度关注大模型、VLA、端到端、强化学习等前沿技术方向[1] - 企业在招聘时更看重第一作者论文的说服力,而非第二作者论文[1] - 研究生群体普遍存在科研指导缺失的问题,需要外部专业支持来完成学术要求[2][9] 公司服务内容 - 提供12周系统性论文辅导流程,涵盖从选题到投稿的全过程[4] - 服务内容包括确定研究方向、文献综述、实验设计、数据收集、论文撰写和选刊投稿等完整环节[4] - 针对不同基础学员提供个性化指导,即使是零基础学员也承诺6个月可完成小论文发表[16] 公司资源与优势 - 拥有300多名专职于自动驾驶/具身智能方向的导师团队[5] - 导师来自全球QS排名前100的高校,具备顶会/子刊/A会/B会等论文发表经验[5] - 近3年辅导学员超过400名,中稿率达到96%[5] - 提供名校推荐信和名企内推机会,包括清北/MIT等名校和阿里达摩院、华为诺亚方舟等企业[17] 服务模式与特色 - 采用1对1在线授课模式,通过腾讯会议进行实时互动[15] - 配备班主任全程督学,跟进学习进度,并提供课后答疑服务[13] - 建立精准匹配系统,根据学员研究方向从300多名导师中筛选3-5位最契合人选[16]
Diffusion²:一个双扩散模型,破解自动驾驶“鬼探头”难题!
自动驾驶之心· 2025-10-10 07:32
文章核心观点 - 同济大学与威斯康星大学麦迪逊分校提出Diffusion²模型 专为解决自动驾驶中“鬼探头”场景下的瞬时行人轨迹预测难题 [1] - 该模型采用两个串联的扩散模型 分别进行反向历史轨迹预测和正向未来轨迹预测 以捕捉轨迹间的因果依赖性 [2][7] - 通过引入双头参数化机制量化预测不确定性 并结合时间自适应噪声调度器动态调整噪声 在ETH/UCY和斯坦福无人机数据集上实现了最先进的预测性能 [5][7][45] 研究背景与问题定义 - 准确的行人轨迹预测对自动驾驶安全性至关重要 尤其在行人突然从盲区出现等瞬时观测场景中 [2] - 传统方法依赖足够长的观测期(如8帧约3.2秒) 但在现实场景中往往只能获得有限观测数据 导致预测性能显著下降 [2] - 在SDD数据集中 仅有瞬时观测的行人出现频率达2.22 s⁻¹ 在ETH/UCY数据集中为1.02 s⁻¹ 凸显了研究该问题的重要性 [2] - 研究目标为仅使用两帧观测数据作为输入 预测行人的未来轨迹及未观测到的历史轨迹 [8] 模型架构与技术创新 - Diffusion²由DDPMpast和DDPMfut两个顺序连接的扩散模型组成 分别负责反向预测历史轨迹和正向预测未来轨迹 [14] - 双头参数化机制通过两个输出头增强标准噪声预测网络 一个头预测噪声 另一个头估计每个坐标的对数方差以量化偶然不确定性 [4][17][18] - 时间自适应噪声调度器根据预测的历史轨迹不确定性水平 在前向扩散过程中动态调节噪声尺度 高不确定性时注入更多噪声以鼓励探索 [5][22][23] - 模型采用对编码器不敏感的设计 可无缝集成多种编码器 实验中采用了具有卓越表征能力的MOE编码器 [15] 实验性能与结果 - 在ETH/UCY数据集上 Diffusion²的平均ADE(平均位移误差)为0.19 FDE(最终位移误差)为0.33 优于所有对比方法 [45] - 在斯坦福无人机数据集上 ADE为8.26 FDE为14.87 同样达到最先进水平 [45] - 推理延迟方面 在NVIDIA RTX A800硬件上 DDPM版本为412毫秒 DDIM版本为75毫秒 优于部分对比方法 [47] - 消融实验证明 双头参数化机制和自适应噪声调度器的引入均能显著提升模型性能 [48] 技术局限性与未来方向 - 基于扩散的框架存在迭代采样过程 导致推理速度较慢 可能阻碍其在实时场景中的部署 [52] - 训练过程涉及优化多个扩散阶段 计算成本较高 [52] - 在交互密集的场景(如UNIV数据集)中 模型的适应能力有所下降 [54] - 未来工作将探索更高效的训练和推理方法 以降低计算资源开销 并提升在复杂交通场景中的鲁棒性 [53][54]
蔚来任少卿:世界模型解决的是时空认知,VLA做不到。
自动驾驶之心· 2025-10-10 07:32
智能驾驶技术路线分析 - 智能驾驶真正的上限在于世界模型,即以视频为核心,通过跨模态预测和重建学习时空物理规律,再叠加语言层进行交互和知识注入[2] - 世界模型解决时空认知问题,而语言模型解决概念认知问题,语言模型因低带宽和稀疏性无法有效建模真实四维时空[2] - 视觉语言模型本质是语言模型的模态扩展,根基仍在语言模型上,像是在原有体系上不断"加模态"[3] - 世界模型旨在建立高带宽认知系统,直接在视频端建立能力而非先转成语言,类似人类眼睛带来的高带宽视觉体验[3] - 自动驾驶终极目标是通过开放集智能引擎实现真正开放式交互,用户可随意表达指令而非局限于有限指令集[3] - 华为本质上也在做世界模型,蔚来去年七月份前已提出此概念,VLA/WA等名称差异关键看是否真正建立时空认知能力[5] 语言模型在智能驾驶中的价值 - 语言模型能内建物理规律如重力、惯性和速度变化,形成模型内部基础认知[6] - 语言模型具备时空操作能力,可理解和预测物体在三维空间加时间维度的运动如车辆绕行[6] - 语言模型吸收海量互联网案例数据,尤其有代表性复杂场景对自动驾驶训练非常有帮助[7] - 通过链式推理语言模型带来逻辑推理能力,弥补世界模型尚未建立的细粒度推理[7] - 自然语言接口使人机交互更直接,用户可像与司机沟通一样告诉车具体行驶指令[7] - 语言模型提供概念认知,世界模型提供时空认知,两者结合将最终走向通用人工智能[8] 自动驾驶行业现状与社区资源 - 自动驾驶领域高度内卷,前沿技术栈趋于收敛,量产方案趋同,行业面临破局需求[9] - 行业变革期真正留在行业内的需综合型人才,技术栈丰富,仅抱"捞一波"心态难以长久[9] - 自动驾驶之心知识星球已运营三年,集视频图文学习路线问答求职为一体,目前超过4000人[11] - 社区联合学术界工业界大佬,梳理近40+技术路线,涵盖VLA benchmark、综述和入门路线[12] - 社区提供全栈方向学习课程,适合0基础小白,涵盖感知融合、多传感器标定、SLAM等高精地图等[18] - 社区与多家自动驾驶公司建立内推机制,可第一时间将简历送至心仪公司[18] - 社区汇总国内外知名高校实验室和自动驾驶公司,供读研申博博后参考[37][39] - 社区针对热点领域如端到端自动驾驶、3DGS与NeRF、世界模型、VLM等做了详细技术梳理[47][49][52][54]
工业界和学术界大佬带队!彻底搞定端到端与VLA
自动驾驶之心· 2025-10-10 07:32
端到端自动驾驶算法趋势 - 端到端算法已成为自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及视觉语言模型(VLA)等多种子领域,尤其基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 核心技术与课程定位 - 从模块化算法到端到端再到VLA,核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等,掌握这些技术可把握学术界和工业界最前沿方向 [3] - 行业推出《端到端与VLA自动驾驶小班课》与《自动驾驶VLA和大模型实战课程》,旨在帮助从业者快速高效入门 [3] - 《自动驾驶VLA与大模型实战课程》由学术界专家带队,聚焦VLA领域,涵盖从VLM作为自动驾驶解释器到模块化VLA、一体化VLA及推理增强VLA的三大领域 [3] - 课程配套理论基础梳理与大作业章节,指导学员从零搭建自己的VLA模型及数据集 [3] - 《端到端与VLA自动驾驶课程》由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式重点算法,详解BEV感知、大语言模型、扩散模型和强化学习 [10] - 工业界课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [10] 师资力量与学员要求 - 课程讲师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [7][9] - 讲师团队具备丰富的自动驾驶、大模型研发和实战经验,并主持完成多项算法预研、框架工具及产品量产交付 [7][9][10] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念的学员,要求自备算力在4090及以上的GPU,并具备Python和PyTorch语言基础 [13]
算法废物跳槽记
自动驾驶之心· 2025-10-10 07:32
文章核心观点 - 文章是一篇面向自动驾驶算法工程师等求职者的跳槽实战指南,核心在于系统性地指导求职者完成从前期准备到薪酬谈判、offer选择的整个跳槽过程,并强调跳槽的最终目标是提升职场议价权[3][4][8] 前期准备清单 - 算法题库需准备150-200题,必刷hot100和高频题[5] - 推荐两份核心资料:《无名氏:万字秋招算法岗深度学习八股文大全》和《无名氏:秋招算法岗手撕代码题合集》[5] - 学术化简历撰写框架为:项目背景→核心贡献→量化成果[5] 薪酬体系解构与谈薪策略 - 薪酬涨幅的参考依据是银行流水和公积金比例,例如公积金比例从12%降至7%需获得补偿[10] - 薪酬涨幅的合理区间为常规20%以上,司龄长的员工涨幅更高[10] - 禁忌:若在当前公司调薪未满6个月,则难以获得认可的涨幅[10] - 可将非目标公司的offer作为与目标公司进行薪资谈判的筹码[10] - 谈薪的核心资本是获得多个offer进行互搏,并协调目标公司最后发出offer[10] Offer避坑清单与操作注意事项 - 需仔细审查薪资结构,包括试用期时长和薪资折扣,例如影石公司试用期薪资打8折[10] - 需核实福利细则,如五险一金缴纳比例、年假、年终奖发放规则,有些公司会暗中少交公积金[10] - 需注意隐藏条款,如竞业协议、年假折算、实际工作内容、作息时间[10] - 离职日期建议选择当月15-20号,以确保当月社保缴纳[7] - 应对背调,需低调处理离职去向,尤其当跳槽至拼多多等敏感企业时,仅告知可信人员[10] - 应提前与直属领导达成离职共识,并预留2周交接期[10] 求职渠道与面试话术 - 求职渠道优先级为:脉脉直聊HR > 官网投递 > 猎头[9] - 使用猎头存在弊端:公司需支付猎头费,增加用人成本,可能降低录用概率;且猎头行业从业者质量参差不齐[9] - 回答跳槽动机的话术公式为:“发展空间 + 技术匹配”[9] 附录:手撕代码题精选(源自自动驾驶公司面试) - 蔚来感知算法岗:k-means算法与三数之和问题[11] - 赢彻科技:带重复数字的二分查找(LeetCode 287变种),问题为在n+1长度的数组中寻找1~n范围内的唯一重复数[11] - 赢彻科技:一维数轴可达性问题,规则为第k步可向左或向右走k步,求到达坐标x的最少步数[11] - 微软:多起点多终点最短路径问题,场景为n*n网格含障碍物,求每个起点到终点的最短距离[12] - 数组组合问题:有效三角形计数[12] - 美团无人车:2D IoU手撕计算,并需思考旋转IoU的计算思路[12] - 美团无人车:平行线覆盖判定问题,判断给定点集能否被两条平行线覆盖[12] - 小马智行:手撕二维卷积,实际为套壳问题,给定n*n格子及炸弹位置,若距离d(整数)范围内有炸弹则格子不安全,求安全格子数量[12] - 文远知行:跳跃游戏(LeetCode 55)[12]
最近高产的苹果!RL4HS:精准定位LLM幻觉,超越GPT-5及o3!
自动驾驶之心· 2025-10-09 15:30
文章核心观点 - 苹果公司近期发布了一项名为RL4HS的突破性研究,该方法利用强化学习训练大语言模型,使其能够精确识别并定位输出内容中的幻觉片段,而不仅仅是进行笼统的错误提示 [3][4] - 该方法在片段级幻觉检测任务上的性能超越了包括GPT-5和o3在内的多个先进商用模型,标志着大语言模型在可靠性和可审计性方面迈出了重要一步 [5][6] 研究方法与技术框架 - 研究核心是探究显式推理(思维链,CoT)是否有助于复杂的幻觉片段检测任务,初步实验表明,具备CoT推理的模型在多次采样时,至少能生成一个正确答案的潜力显著提升 [8][14] - 提出的RL4HS框架结合了片段级奖励和类别感知的组相对策略优化,旨在激励模型进行有效推理,并解决因奖励函数不对称导致的模型预测偏差问题 [9][17] - 为解决奖励不平衡,引入了类别感知策略优化,为非幻觉类别的样本优势值引入缩放因子α(实验中α=0.5),以缓解模型倾向于做出非幻觉预测的偏差 [17] 实验设计与数据 - 实验在RAGTruth基准测试集上进行,该数据集涵盖摘要生成、问答和数据到文本三类任务,训练、验证和测试集规模分别为数千条样本 [10][17] - 主要采用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作为基础模型进行训练与评估 [17] 性能评估与结果对比 - 预训练指令微调模型表现不佳,例如Qwen2.5-7B/14B-Instruct的平均F1分数低于30,表明仅靠提示无法实现精确的片段级定位 [21] - 具备推理能力的预训练模型(如Qwen3-14B)性能有所提升,在摘要任务上F1达到35.8,但仍落后于微调模型 [24] - 监督微调显著提升性能,14B规模模型的平均F1达到55.4 [24] - RL4HS模型在所有基线模型上均表现出优势,RL4HS-7B的平均F1达到55.9,优于监督微调的50.1 [24] - RL4HS-14B模型在摘要、问答和数据到文本任务上的F1分数分别达到57.6、54.8和62.6,超越了Qwen3系列以及表现最强的GPT-5和o3模型 [24] 定性分析与实际意义 - 定性分析案例显示,RL4HS能够执行系统化的一致性检验推理,其推理过程与人工设计的启发式检测流程高度一致,表明其学习到的推理行为是真实可靠的 [25][26] - 该技术能直接指出具体错误段落,对于需要修改输出或进行事实审查的用户,可以大大节省时间 [4]
FSD奔着无人的方向去了!马斯克:FSD已经产生了自我意识...
自动驾驶之心· 2025-10-09 15:30
技术架构升级 - 实现千亿级别参数大模型在自动驾驶领域的落地应用[1] - 首次实现Robotaxi与量产车采用同源同架构技术方案[1] - 将导航和路线功能整合到基于视觉的神经网络系统中实现实时处理[6] 功能优化与新增 - 增加到达选项功能支持选择停车场街道私人车道停车场或路边等停车位置[6] - 新增对紧急车辆包括警车消防车救护车的靠边停车或让行处理能力[6] - 改进对静态和动态闸门的处理机制[6] - 提升对道路碎片如轮胎树枝箱子的规避能力[6] - 改善无保护转弯变道车辆切入和校车等多种场景的处理效果[6] - 增加自动窄视野清洗功能实现前置摄像头自清洁[6] - 新增前挡风玻璃内部残留物警示提示系统[6] 驾驶体验定制化 - 添加额外速度配置文件支持进一步自定义驾驶风格偏好[6] - 提供多种驾驶风格选项包括Sloth Chill Standard Hurry等模式[9] 系统可靠性提升 - 增强FSD管理系统故障处理能力[6] - 优化从降级操作中平稳恢复的机制以提高系统可靠性[6] - 在高速行驶时优化空气动力学冲刷效果[6] 硬件与适用范围 - 本次更新仅面向HW4 0硬件版本车辆推送硬件版本低于4 0的车辆不在此次更新范围内[1] - 功能目前适用于Model S和Model 3等车型[9][12]