自动驾驶之心
搜索文档
我们正在寻找自动驾驶领域的合伙人......
自动驾驶之心· 2025-10-09 12:00
公司业务与招聘计划 - 公司计划招募10名业务合伙人,负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] - 招聘面向国内外优秀人才 [2] 岗位专业方向 - 主要技术方向包括4D标注、世界模型、大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、闭环仿真3DGS、大模型部署与量化感知推理等 [3] 候选人要求 - 要求候选人毕业于QS200以内高校,拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 薪酬福利 - 提供自动驾驶领域的资源共享,涵盖求职、读博及出国留学推荐等 [5] - 提供丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
学术界和工业界都在如何研究端到端与VLA?三个月搞定端到端自动驾驶!
自动驾驶之心· 2025-10-09 12:00
自动驾驶端到端算法技术趋势 - 端到端算法是当前自动驾驶量产的核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式范式以UniAD为代表 直接从传感器输入建模自车轨迹输出 两段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法衍生出多个子领域 包括基于感知 基于扩散模型 基于世界模型以及基于VLA的算法 其中基于VLA的算法相关论文正爆发式发表 工业界也在争先量产 [1] 前沿技术栈构成 - 核心算法涉及BEV感知 视觉语言模型 扩散模型 强化学习 世界模型等多项前沿技术 [3] - 通过学习端到端与VLA自动驾驶 可以掌握学术界和工业界最前沿的技术方向 [3] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA领域 内容涵盖从VLM作为自动驾驶解释器开始 到模块化VLA 一体化VLA 以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理 包括Vision/Language/Acition三大模块 强化学习 扩散模型等基础 [3] - 课程设有专门的大作业章节 指导学员从零搭建自己的VLA模型及数据集 [3] 课程师资团队 - 师资团队包括来自清华大学等高校的硕士生和博士生 在ICCV IROS EMNLP等国际顶级会议发表多篇论文 [7][9] - 团队成员研究方向涵盖多模态感知 自动驾驶VLA 大模型Agent等前沿领域 拥有丰富的研发和实战经验 [7][9] - 部分成员长期维护GitHub开源项目 总Star数已超过2k 具备扎实的研发能力 [7] 端到端与VLA自动驾驶课程 - 该课程由工业界专家带队 聚焦端到端自动驾驶宏观领域 梳理一段式/两段式方向的重点算法和理论基础 [10] - 课程详细讲解BEV感知 大语言模型 扩散模型和强化学习 并设计两大实战项目 基于扩散模型的Diffusino Planner和基于VLA的ORION算法 [10] - 课程讲师为国内TOP主机厂算法专家 拥有端到端 大模型 世界模型等前沿算法的预研和量产经验 并主持完成多项算法的产品量产交付 [10] 目标学员要求 - 学员需自备GPU 推荐算力在4090及以上 [13] - 要求学员具备一定的自动驾驶领域基础 熟悉基本模块 并了解transformer大模型 强化学习 BEV感知等技术的基本概念 [13] - 学员需具备一定的概率论和线性代数基础 熟悉常用数学运算 并具备一定的python和pytorch语言基础 [13]
自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?
自动驾驶之心· 2025-10-09 07:33
自动驾驶技术发展现状与路径 - 特斯拉在自动驾驶体验和效果上被多位专家认为是行业领先者 [9][14] - L4级别自动驾驶已由Waymo和萝卜快跑实现,但L5级别可能还需至少5年时间 [4] - 端到端模型已能解决约90%的驾驶问题,特斯拉将其做到极致,安全性基本得到保证 [5] 技术路线与核心模型 - 视觉语言动作模型被认为是自动驾驶的终局方案,因其能利用语言模态进行推理,处理需要认知推理的长尾问题 [5][6] - 世界模型是对物理空间和运行规律的更本质建模,但技术难度更大 [9] - 端到端模型存在多种架构:一段式端到端、一段式模块端到端以及OneModel端到端 [11][12] 关键技术与传感器 - 4D毫米波雷达被视为纯视觉系统的良好冗余,当系统复杂度达到几千几万MPI时冗余的重要性凸显 [5] - 激光雷达在成本下降后与纯视觉方案相比无明显劣势,提供精确距离感知冗余的融合方案可能是终极方向 [17] - 语言模态对于自动驾驶至关重要,缺乏语言推理能力将导致车辆无法理解世界而出错 [5] 人才与专业发展 - 人工智能是未来研究自动驾驶的首选专业方向,因自动驾驶问题可能在4年内基本解决,但AI方向长期正确 [4] - 对于职业发展,建议先进入大型智驾公司培养体系化工程思维,机器人领域在产品化和工程成熟度上仍处于探索阶段 [16] 市场与区域对比 - 中国智能驾驶发展态势远优于国外市场,目前除特斯拉外,没有国外智驾方案能在中国市场发布 [10] - 国内公司与特斯拉的差距主要体现在算法和软件工程的流程规范上,但从用户体验角度看差距不大 [14][15] 机器人及具身智能 - 在机器人领域,实用功能的发展速度和商业价值远高于身体协调性和美感 [7] - 大模型背景的研究人员转向具身智能领域相对容易,真正的竞争力在于模型规模、创新和真机跨本体泛化能力 [5]
YOLO26不是第26代,而是“破局者”!颠覆性端到端架构重塑实时检测
自动驾驶之心· 2025-10-09 07:33
模型核心定位与设计原则 - YOLO26是YOLO系列实时目标检测器的最新演进版本,专为边缘和低功耗设备从头设计[5] - 模型引入一套简化设计,去除不必要复杂性,集成针对性创新,以实现更快、更轻量、更易于部署的模型[5] - 架构由简洁性核心原则驱动,是一个原生端到端模型,直接输出预测结果,无需非极大值抑制(NMS)[6] 关键技术创新 - 完全移除分布焦点损失(DFL)模块,简化推理并扩大对边缘和低功耗设备的硬件兼容性[10] - 采用原生端到端无NMS推理,取消独立后处理步骤,减少延迟,使生产系统集成更快、更轻、更可靠[11] - 引入改进的损失函数ProgLoss + STAL,显著提升检测精度,尤其在小目标识别方面有重大改进[12] - 采用新型混合优化器MuSGD,将SGD与Muon相结合,灵感来自Moonshot AI的Kimi K2,带来更稳定训练和更快收敛[13] 性能提升与优化效果 - 模型针对边缘计算专门优化,在CPU上推理速度最多提升43%,为无GPU设备提供近实时性能[7][14] - 模型家族在小目标上拥有更高精度,部署无缝,成为资源受限环境下最实用、最易部署的YOLO模型之一[7] 多任务支持能力 - YOLO26被设计为一个多任务模型家族,扩展了在不同计算机视觉挑战中的适用性[15] - 统一框架支持实时检测、实例分割、分类、姿态估计和定向目标检测,发布时均支持训练、验证、推理与导出[15][21] 目标检测性能指标(早期预览) - YOLO26n模型在640像素输入尺寸下,mAP 50-95(端到端)为39.8,参数量2.4百万,FLOPs 5.4十亿,CPU ONNX推理速度38.90毫秒[18] - YOLO26s模型mAP 50-95(端到端)为47.2,参数量9.5百万,FLOPs 20.7十亿,CPU ONNX推理速度87.16毫秒[18] - YOLO26m模型mAP 50-95(端到端)为51.5,参数量20.4百万,FLOPs 68.2十亿,CPU ONNX推理速度220.0毫秒[18] - YOLO26l模型mAP 50-95(端到端)为53.0,参数量24.8百万,FLOPs 86.4十亿,CPU ONNX推理速度286.17毫秒[18]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-09 07:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]
模仿学习无法真正端到端?
自动驾驶之心· 2025-10-09 07:33
模仿学习的核心问题与局限性 - 模仿学习的基本假设是专家数据提供了最优行为真值,但在驾驶这种多模态场景中不存在唯一完美驾驶行为 [2] - 训练数据来源于风格、技术和礼让程度各异的真人驾驶,这些数据缺乏一致性且难以称为最优,导致模型学不到清晰正确的驾驶逻辑 [3] - 纯粹基于模仿学习的模型难以学到具有强逻辑和因果关系的拟人驾驶策略,反而表现出极强的随机性和不确定性 [4] 模仿学习在决策权重上的缺陷 - 模仿学习将人驾数据中每个时刻的真值正确性视为等权重,无法区分关键场景决策与普通场景决策的重要性 [5] - 由于训练阶段没有对不同的场景决策区别对待,模型在关键时刻容易犯下致命错误,导致输出不可完全信赖 [5] - 自动驾驶领域充满关键场景,纯粹模仿学习系统在一般场景可能表现良好,但在关键场景(如旁车紧急切入)则难以输出符合安全要求的轨迹 [7] 模仿学习的累积误差与分布外问题 - 开环模仿学习会因Policy与最优解之间的微小误差累积,导致自车进入训练数据分布之外的驾驶状态 [8] - 当模型进入人驾数据中罕见的驾驶状态时,其行为难以预判,造成性能显著下降 [8][12] - 实车表现上,模型可能因非最优行为导致迟迟不能变道,而很晚变道的现象在人驾数据中少见,最终在关键时刻容易放弃并导致接管 [13] 技术研发的关键方向 - 技术研发的核心在于识别关键路线和瓶颈,而非紧追技术潮流 [14] - 随着端到端技术方案实践经验的增长,行业意识到问题在于寻找模仿学习训练范式之外的新方法来解决其技术瓶颈 [14]
Less is More!Max-V1:面向自动驾驶精巧而强大的视觉-语言模型(复旦&中科院)
自动驾驶之心· 2025-10-08 17:04
文章核心观点 - 提出一种名为Max-V1的全新一阶段端到端自动驾驶框架,将自动驾驶重新概念化为广义语言任务,将轨迹规划形式化为“下一个waypoint预测”[2] - 该方法利用视觉语言模型的生成能力,仅输入前视相机即可端到端预测轨迹,在nuScenes数据集上取得SOTA性能,相较基线模型整体提升超过30%[2][3] - 该框架摒弃了传统的鸟瞰图特征空间和复杂的中间表示,采用单次前向生成范式,结合统计建模原则性监督策略,具备强大的跨域泛化能力[9][10][30] 背景回顾与主要贡献 - 将人类驾驶视为序列化决策过程,与自然语言生成高度相似,从而可将视觉语言模型视为强大的策略网络,将规划转化为可处理的自回归序列建模任务[5] - 当前端到端自动驾驶研究主要分为两大方向:开发专用架构并在大规模领域数据上训练,或适配大型预训练视觉语言模型以利用其世界知识与推理能力[5] - 专用架构受限于高质量标注数据依赖和鸟瞰图表示的脆弱性,而基于视觉语言模型的框架则面临计算效率低下及对连续控制不适配的挑战[8][9] 模型简介与技术创新 - 将“下一词预测”重构为“下一waypoint预测”,在自回归框架内将其视为回归问题,使用特殊令牌对连续坐标值占位符进行建模,避免了将坐标直接文本化带来的离散性不匹配问题[14][17] - 提出针对waypoint回归的特定任务损失,使用物理距离损失监督预测坐标与真实值,替代标准的交叉熵损失,该损失源于对waypoint表示统计基础模型的推导,等价于L2损失[16][24][25] - 框架设计具有深刻简洁性,无需依赖额外的思维链注释或多轮对话,是单次端到端方法,直接生成整个轨迹,且仅需前视摄像头单帧图像,无需额外自车状态信息[27] 实验结果与性能表现 - 在nuScenes数据集评估中,模型在轨迹规划项目上位移误差指标整体降低超过30%,其中MiMo-VL-7B-RL版本在3秒预测时的平均L2误差为0.27米,最大L2误差为0.49米[28][30] - 模型展现出强大的零样本泛化能力,在截然不同的场景和由完全不同的车辆采集的数据集上仍能表现合格驾驶行为,显示跨车辆部署潜力[3][10] - 初步探索了第一人称视角下的LiDAR-图像融合,发现明显的性能权衡,仅使用相机输入时3秒平均L2误差为0.34米,加入LiDAR后升至0.68米[28] 局限性与未来方向 - 推理延迟仍是实时部署的挑战,未来可探索知识蒸馏、量化等高效推理技术及定制芯片开发[32] - 端到端黑盒架构缺乏直接可解释性,未来可开发混合架构或事后分析方法弥合此差距[32] - 当前模型基于模仿学习,受限于专家演示,未来可通过引入强化学习使模型能从交互中学习并发现更优驾驶策略[31][32]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-10-08 17:04
自动驾驶VLA技术趋势 - 端到端技术后,学术界和工业界聚焦于VLA,其提供类人思考能力,通过思维链展现车辆决策过程,以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案,主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出,包含自动驾驶VLA三个子领域前沿算法讲解,并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章:VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作,涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline,一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块,支持长时序规划、因果解释及多模态交互,重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA,涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展,掌握三大子领域核心技术,并能够复现主流算法以应用于科研及工程落地[21][23]
NeurIPS'25!AutoPrune:即插即用的自适应大模型剪枝框架
自动驾驶之心· 2025-10-07 15:46
文章核心观点 - 上海交通大学与中国科学院团队提出了一种名为AutoPrune的、无需训练的复杂度自适应视觉token剪枝框架,旨在解决视觉语言模型因高分辨率图像产生大量视觉token而带来的计算与延迟瓶颈 [2][3][4] - 该方法的核心创新在于根据输入样本(图像与问题)的复杂度,动态地为解码器每一层分配token剪枝比例,而非采用固定策略,从而在严格满足全局计算预算约束下,实现更高的模型精度保留率和计算效率 [2][3][6] - 实验表明,AutoPrune在多个主流视觉语言模型及自动驾驶VLA模型上均取得显著效果,例如在LLaVA-1.5-7B模型上,剪去89%视觉token并降低76.8% FLOPs的同时,仍能保留96.7%的原始精度 [3][14] 背景与问题 - 视觉语言模型是多模态系统的核心,但高分辨率图像或视频会产生大量视觉token,导致显著的显存与延迟瓶颈,这在自动驾驶等实时场景中尤为关键 [4] - 现有token剪枝方法通常采用固定的层间分配策略,缺乏全局计算预算约束,且需要手工调参,难以适应不同难度样本(简单或复杂问题与场景)的动态推理需求 [2][4][6] - 分析发现,简单样本的跨模态注意力在模型浅层即可快速收敛,而复杂样本则需要更深的网络层进行探索和注意力迁移,这要求剪枝策略具备动态自适应性 [6][13] 方法原理 - **复杂度度量**:通过计算解码器浅层视觉token与文本token注意力图之间的互信息,来量化输入样本与任务的复杂度,互信息高表示任务简单,互信息低表示任务复杂 [6][10][13] - **预算约束保留曲线**:将计算出的互信息映射为一个Logistic函数(S型曲线),该曲线的斜率和拐点由互信息线性决定,然后通过解析积分和重标定,确保曲线下面积严格等于预设的全局token或FLOPs计算预算 [7][10][13] - **动态策略生成**:对于简单样本(互信息高),生成的Logistic曲线在浅层快速下降,实现早期激进剪枝;对于复杂样本(互信息低),曲线在前期保持平缓,将快速剪枝延迟到更深层,以避免过早丢失关键信息 [6][13] - **联合优化框架**:将视觉token剪枝建模为一个带全局预算约束的优化问题,联合优化层间token分配策略、token选择策略和token恢复策略 [9][11] 实验效果 - **在LLaVA-1.5-7B模型上**:当仅保留64个视觉token时,模型性能仍保持原始精度的96.7%,FLOPs降至原来的23.2%(即降低76.8%),相比PDrop方法提升9.1% [3][14] - **在LLaVA-NeXT-7B模型上**:在640、320、160三种token预算设置下,AutoPrune性能均优于对比方法(FastV, Sparse VLM, VisionZip, FasterVLM)[15] - 在640 token预算下,性能达到原始模型的99.7% [16] - 在320 token预算下,性能达到原始模型的98.2% [16] - 在160 token预算下,性能仍保留原始模型的94.9% [15][16] - **在自动驾驶VLA规划任务上**:在Senna和nuScenes数据集上,在不同token保留率(20%至40%)下,AutoPrune均优于基线方法,某些情况下甚至超过未剪枝的原始模型,表明剪除噪声token可能带来正向效应 [16][17] - 例如,在保留25% token(32/128)时,性能达到原始模型的111.23% [17] 优势与意义 - **无需训练**:该框架是即插即用的,无需对预训练模型进行微调即可应用,降低了部署成本 [3][10] - **通用性强**:方法适用于多种视觉语言模型以及自动驾驶领域的视觉语言动作模型,并展现出跨数据集的稳定优势 [3][10][18] - **计算开销低**:额外的复杂度估计与策略生成开销时间复杂度约为O(N log N),相对于整体推理代价可以忽略,具备工程可行性 [13] - **启发于认知科学**:方法设计灵感来源于人类观察思考的特点,即简单任务快速收敛,复杂任务需要维持多种假设并多次探索 [6][13][18]
Lidar注定失败(doomed)?
自动驾驶之心· 2025-10-07 15:46
激光雷达技术发展历程 - 激光雷达技术可追溯至1960年代,最初用于军事航空测绘[3] - 2004年DARPA挑战赛推动激光雷达在自动驾驶领域应用,2005年斯坦福团队使用5个工业激光雷达获胜,2007年卡耐基梅隆团队使用64线Velodyne激光雷达成为技术标杆[3] - 2009年谷歌自动驾驶项目(Waymo)主要依赖Velodyne旋转式激光雷达,2017年Waymo自研激光雷达成本从Velodyne的75000美元大幅降低至7500美元[3] - 激光雷达产业蓬勃发展,Quanergy、Luminar、Innoviz、禾赛、速腾、大疆、华为等公司发展固态/半固态和4D激光雷达技术并致力于降低成本[4] 激光雷达与纯视觉技术路线对比 - 传统机器视觉算法测距困难,双目测距精度有限且受噪声干扰,而激光雷达通过发射近红外激光计算时间差实现厘米级精度测距[11][12] - 激光雷达在障碍物检测精度上远高于传统算法,但存在分辨率低、帧率低、无颜色等缺点,信息量仅为相机0.1-0.5百万像素,信息密度相差10-100倍[16] - 激光雷达点云无法反映物理世界关键信息,如水坑光影、危险坑洞、消防栓水柱、行人朝向等,限制了环境理解能力[22] - 相机成熟度远高于激光雷达,激光雷达内部机械部件耐久性差,失效率显著高于相机[20] 特斯拉纯视觉方案技术突破 - 2016年特斯拉开始自研自动驾驶并提出FSD概念,早期邀请OpenAI算法专家参与评估,前特斯拉视觉团队负责人Andrej Karpathy推动神经网络方案取代传统机器视觉[23] - 2018年Karpathy首次将Transformer应用于BEV多相机融合,使自动驾驶与大语言模型技术同源,后续融入端到端、强化学习、世界模型等大模型技术[23] - 特斯拉在去除毫米波雷达后视觉能力大幅提升,接近甚至超越毫米波雷达的测距和测速精度[24] - 马斯克认为自动驾驶是物理世界AGI问题,解决方案关键在于AI而非传感器,激光雷达注定失败是基于技术需求的预见[24][25] 端到端自动驾驶技术挑战 - 训练端到端神经网络需要海量相机视频数据与驾驶员操作数据配对,但难以从数千万像素中准确提取因果关系[27] - 激光雷达数据会干扰网络在视觉与控制信号间寻找因果关系,导致过拟合,因为激光雷达信号更简单明确但与人眼视觉世界差异过大[26][28][32] - 纯视觉端到端方案需要数据闭环基础设施、强大算力和量产车队支持,特斯拉拥有5万张H100显卡和700万辆量产车每年20亿英里数据形成的门槛[28] - 神经网络目标是学习人类眼睛到驾驶行为的因果过程而非相关性,激光雷达点云不具备理解物理世界的能力[33] 行业技术路径依赖现状 - 早期投入激光雷达的企业如Waymo已形成技术路径依赖,规则式代码积累庞大且已实现Robotaxi应用[30] - 激光雷达与高精地图结合可让车企快速获得自动驾驶入场券,解决有无问题,但类似游戏世界作弊[30] - 消费者已被市场教育形成激光雷达代表高安全性的认知,缺乏激光雷达的车型可能被视为低端产品[30] - 除特斯拉外几乎没有纯视觉方案车企,因纯视觉技术难度大且需要大规模数据与算力支撑[30]