自动驾驶之心

搜索文档
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 17:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
全球第一企业的能力盲区?
自动驾驶之心· 2025-07-23 17:56
英伟达汽车业务现状 - 英伟达市值达4万亿美元成为全球第一,CEO黄仁勋访华并积极拉拢中国车企[5] - 汽车业务仅占英伟达1305亿美元总收入的不到2%,2026年自动驾驶业务目标收入50亿美元[7][11] - 华为智能车BU去年软硬件综合营收264亿元,相当于英伟达10天收入[12] 车企合作与替代趋势 - 通用汽车评测英伟达辅助驾驶方案后内部评价"very scary",合作蒙上阴影[7][8] - 奔驰测试显示英伟达辅助驾驶效果不如中国公司Momenta,已将部分车型业务转给Momenta[9][10][11] - 捷豹路虎也在寻找替代供应商,英伟达员工在中国基本不对接车企项目[11] 芯片延期与客户流失 - 英伟达Thor芯片多次延期,理想汽车改款车型因此推迟导致约60亿元销售损失[18][19] - Thor芯片存在设计缺陷,算力从宣传的700TOPS缩水至不足500TOPS[21] - 小鹏汽车放弃Thor平台开发,转向自研图灵芯片并已上车交付[20] 车企自研芯片进展 - 蔚来、小鹏、理想自研芯片成本各约3-4亿美元,蔚来芯片可帮助单车降本1万元[25][32][35] - 小鹏图灵芯片集成双ISP提升感知能力,理想加快自研芯片进度提前至明年一季度[22][35] - 比亚迪、小米、理想等都将推出自研汽车芯片,未来英伟达芯片可能仅用于海外车型[24] 技术路线与行业趋势 - 英伟达将汽车和机器人部门合并,视汽车为"无手机器人"的具身智能落地场景[13] - 特斯拉FSD下一代芯片AI5算力达2000-2500TOPS,参数量将扩大4.5倍[36] - 高通汽车业务营收占比从1.2%增长至近10%,新技术加速应用于汽车芯片[54] 英伟达面临挑战 - Thor芯片采用消费级N4P制程而非车规级工艺,交付受台积电产能优先级影响[41][43][44] - 英伟达企业文化导致交付节奏慢,资源配置不足,黄仁勋很少过问汽车业务[48][49] - 自动驾驶软件领域被Momenta等中国公司超越,团队决策权集中在美国[51][52]
复旦最新BezierGS:贝塞尔曲线实现驾驶场景重建SOTA(ICCV'25)
自动驾驶之心· 2025-07-23 17:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 复旦大学ICCV2025中稿的最新工作! BezierGS:基于贝塞尔曲线高斯泼溅的动态城市场景重建! 如果您有相关 工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 ICCV 2025中稿的最新工作!自动驾驶场景的真实重建对于开发闭环仿真至关重要。大多数现有方法依赖于目标的位姿标注,使用这些位姿来重建动态目标并在渲染过程 中实现动态重建。这种对高精度目标标注的依赖限制了大规模和广泛场景的重建。为了解决这一挑战,复旦大学的团队提出了Bezier curve Gaussian splatting (BezierGS),该方法使用可学习的贝塞尔曲线表示动态目标的运动轨迹。这种方法充分利用了动态目标的时间信息,并通过可学习的曲线建模自动校准位姿误差。通过 引入对动态目标渲染的额外监督和曲线间一致性约束,实现了合理且准确的场景元素分离和重建。在Waymo开放数据集和nuPlan基准上的大量实验表明,BezierGS在 ...
一边是毕业等于失业,一边是企业招不到人,太难了。。。
自动驾驶之心· 2025-07-23 17:56
自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡,企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性,公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高,对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区,拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线,包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道,提供简历直达服务 [8][10] - 每周活跃度位居国内前20,形成学术与产业界的深度互动 [10][71] 技术研究方向 视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测,代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一,提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型,解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强,如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入,如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务,包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
果然!秋招会惩罚每一个本末倒置的研究生!
自动驾驶之心· 2025-07-23 10:12
就业与科研建议 - 针对毕业生建议校招社招两手抓 注重资源整合与查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 推荐系统性科研辅导课程 [1] 科研辅导案例 - 研二学员通过3个月辅导成功发表SCI论文 解决导师散养问题 [2] 平台优势 - 拥有国内顶尖学术资源 专注自动驾驶 具身智能 机器人等交叉学科领域 [3] - 团队含300+QS前100高校导师 近3年辅导400+学员 中稿率达96% [3] 服务流程 - 12周标准化流程:从选题到投稿分阶段完成 含文献综述 实验设计 初稿润色等环节 [5] 目标用户群体 - 覆盖计算机硕博生 职称提升需求者 人工智能从业者 考研申博留学生等 [10] - 解决导师放养 知识碎片化问题 帮助建立科研思维与完整方法论 [6] 课程交付成果 - 提供论文全流程服务 包括选题 实验 投稿等 目标覆盖CCF-A/B/C SCI1-4区等期刊 [11] - 优秀学员可获名校推荐信或名企内推机会 如阿里达摩院 华为诺亚方舟 [14] 教学模式 - 1v1在线授课 微信群答疑 配备班主任全程督学 [12][15] - 支持零基础学员 通过6个月基础课程+文献带读实现论文产出 [13] 匹配与试听机制 - 采用精准匹配系统 从300+导师中筛选3-5位定向推荐 [13] - 提供名师预沟通服务 不满意可更换或退款 [14]
一起做些有意思的事情!自动驾驶之心还缺几位合伙人
自动驾驶之心· 2025-07-23 10:12
业务合伙人招募 - 公司计划向国内外招募10位优秀合伙人(个人+企业)负责自动驾驶相关项目对接、课程研发、论文辅导、硬件研发、产品代理 [2] - 主要招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端、具身智能、AI Agent、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理、SLAM等 [2] - 岗位要求QS200以内高校硕士及以上学历,手握顶会论文者优先 [2] 合伙人待遇 - 提供自动驾驶资源共享(求职、读博、出国留学推荐等) [3] - 提供丰厚的现金激励 [3] - 提供创业项目合作与推荐机会 [3] 联系方式 - 咨询需添加微信wenyirumo并备注"机构/公司+自动驾驶合作咨询" [3]
同济大学最新!GEMINUS:端到端MoE实现闭环新SOTA,性能大涨近8%~
自动驾驶之心· 2025-07-22 20:46
核心观点 - GEMINUS是一种基于专家混合(MoE)的端到端自动驾驶框架,通过双感知路由器动态激活全局专家和场景自适应专家,在多样化场景下实现自适应与鲁棒性兼具的性能 [1] - 该框架在Bench2Drive闭环基准测试中超越现有方法,驾驶评分提升7.67%,成功率提升22.06%,MultiAbility-Mean提升19.41% [2][49] - 仅使用单目视觉输入即达到SOTA水平,驾驶评分提升9.17%,成功率提升25.77%,开环平均L2误差降低5.88% [37] 技术架构 框架设计 - 包含全局专家(整体数据集训练)、场景自适应专家组(场景子集训练)和双感知路由器(场景级特征+路由不确定性) [1] - 路由器采用硬分配机制,当不确定性低于阈值时选择场景专家,高于阈值时启用全局专家 [18] - 场景分类包括汇入、超车、紧急制动、让行和交通标志5类 [24] 关键组件 - 特征编码器采用ResNet34处理图像输入,测量编码器处理车辆状态信息 [20] - 轨迹规划器生成未来航路点序列,通过PID控制器输出控制信号 [17][20] - 损失函数整合轨迹模仿、特征对齐、价值对齐等多目标优化 [29][31][33] 性能表现 基准测试 - 驾驶评分65.39,成功率37.73%,MultiAbility-Mean 37.77%,均显著优于单专家基线 [41] - 超车场景准确率91.35%,交通标志场景90.45%,但让行场景仅2.87% [42][46] - 全局专家利用率6.29%,在模糊场景中发挥稳定作用 [47][48] 消融实验 - 纯MoE架构直接应用会导致性能下降,验证定制化设计的必要性 [40] - 场景感知路由使驾驶评分提升2.72%,成功率提升4.40% [40] - 不确定性路由+全局专家带来额外4.83%驾驶评分和22.06%成功率提升 [40] 行业应用 技术突破 - 首次将MoE架构成功应用于端到端自动驾驶,解决模态平均问题 [6][12] - 单目视觉性能超越多相机方案,降低硬件成本 [37][38] - 路由机制可解释性强,专家利用率反映场景特征明显程度 [47] 发展前景 - 可扩展至多相机输入提升场景感知能力 [50] - 探索Mixture-of-LoRA架构优化参数效率 [50] - 在长尾场景处理和安全冗余方面具备迭代潜力 [11][50]
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术研究 核心观点 - 提出DriveMRP框架,通过合成高风险运动数据(DriveMRP-10K)和视觉提示方案,显著提升视觉语言模型(VLM)在自动驾驶场景中的风险预测能力,事故识别准确率从27%提升至88% [1][7][8] - 创新性地将运动路点投影为视觉表示,结合BEV全局上下文和链条推理机制,解决传统VLM在模态差距和可解释性上的局限 [6][13] 现有方法局限 - 规则基方法依赖外部世界模型和预定义规则,对感知误差敏感且泛化性差 [2] - VLM基方法直接输入轨迹坐标文本,因模态差距导致空间关系理解不足 [4] 创新方案 数据集构建 - DriveMRP-10K包含10,000个高风险场景,通过多项式模拟生成三类风险轨迹(ego车辆行为/车辆交互/环境约束),结合GPT-4o生成多模态标注数据 [5] - 采用四阶段流程:高风险轨迹合成→自动标注→人工质检→文本生成,确保数据质量 [5] 模型架构 - DriveMRP-Agent以BEV布局、场景图像和运动路点为输入,通过LoRA微调Qwen2.5VL-7B模型 [6] - 关键组件:视觉提示方案(解决模态差距)、链条推理机制(场景理解→运动分析→风险预测)、CoT训练策略 [6] 性能表现 基准测试 - 在DriveMRP-10K上,ROUGE-1-F1达69.08,风险预测准确率88.03%(基线27.13%),F1分数89.12 [7][8] - 真实世界数据零样本评估中,准确率从29.42%提升至68.50% [9] 数据集有效性 - 微调后Llava-1.5-7B的F1分数从0.85提升至29.99,Qwen2.5-VL-7B的F1达89.12 [11] 组件分析 - 完整模型(视觉提示+链条推理+BEV)性能最优,F1分数89.12;移除BEV后降至83.47 [13] 技术应用 - 方案可增强现有VLM的"即插即用"能力,适用于端到端自动驾驶、BEV感知、轨迹预测等技术方向 [15][17]
聊聊自动驾驶闭环仿真和3DGS!
自动驾驶之心· 2025-07-22 20:46
神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆,这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示,利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性,例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示,将场景建模为基于点的背景和前景物体,每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观,前景点使用动态球面谐波模型,实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式,便于组合单独模型,支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点,每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量,避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观,并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云,点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似,但位置、旋转和外观模型不同,在物体局部坐标系中定义[11] - 引入4D球谐函数模型,用傅里叶变换系数替代SH系数,将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题,避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化,通过投影到图像平面获取颜色[17] - 对于物体模型,收集3D边界框内的聚合点并转换到局部坐标系,点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样,过滤不可见点,结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向,包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛,涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展,但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析,以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业,以及升学和求职经验分享[45][47]