自动驾驶之心
搜索文档
上岸自动驾驶感知!轨迹预测1v6小班课仅剩最后一个名额~
自动驾驶之心· 2025-08-31 00:03
行业技术趋势 - 轨迹预测在自动驾驶领域仍是主流算法 许多公司依然沿用二段式端到端或模块化方法而非一段式端到端[1] - 扩散模型在多智能体轨迹预测领域取得重大突破 通过逐步去噪实现复杂分布生成[2] - Leapfrog Diffusion Model采用可训练跳跃初始化器 在多个数据集上实现19-30倍加速并显著提升精度[2] - Mixed Gaussian Flow通过构建混合高斯先验匹配多峰分布 在UCY/ETH和SDD数据集达到最先进性能[2] - Pattern Memory-based Diffusion Model通过聚类人类运动模式构建记忆库 引导生成多样而合理的轨迹[2] 研究应用方向 - 多智能体轨迹预测根据多个交互主体历史轨迹预测未来运动 应用于自动驾驶、智能监控和机器人导航[1] - 研究融合社会交互建模与条件控制机制 实现对目标点和环境因素的灵活引导[3] - 在ETH、UCY、SDD等公开数据集进行实证验证 与LED、MGF、SingularTrajectory等主流方法系统比较[3] 技术发展痛点 - 人类行为具有不确定性和多模态性 使预测任务十分困难[1] - 传统方法依赖循环神经网络、卷积网络或图神经网络建模社会交互[1] - 生成模型如GAN和CVAE虽可模拟多模态分布但效率不高[1] 课程内容体系 - 课程提供ETH、UCY、SDD等公开行人或车辆轨迹数据集及预处理脚本[20] - 提供多个开源框架包括LED、SingularTrajectory、MGF、MPMNet等baseline代码[21][22] - 涵盖CVPR 2023/2024和NeurIPS 2024等顶级会议的最新论文[23] - 课程周期包含12周在线小组科研、2周论文指导和10周论文维护期[9][31] 教学方法特色 - 采用"2+1"式授课师资 配备名校教授、研究院和行业导师领衔授课[16][17] - 提供科研论文idea 每位学员均可获得导师准备的研究课题[9] - 包含全学习周期服务 从基础知识测试到学术通识准备再到后期报告指导[18] - 课程产出包括论文初稿、项目结业证书和推荐信[19]
Tier 1一哥博世端到端终于走到量产,还是一段式!
自动驾驶之心· 2025-08-31 00:03
文远知行一段式端到端ADAS解决方案 - 文远知行发布一段式端到端ADAS解决方案WePilot AiDrive 年内量产上车[5][9] - 方案采用单一模型从传感器数据输入端直接输出行车轨迹 实现更短路径、更快反应和更高容错率[10][24] - 与博世合作量产 目标是将高阶智能辅助驾驶能力普及到各价位车型[8][41][44] 技术优势与实测表现 - 在广州城区道路实测中 系统在城中村复杂场景(行人、电动车、临时修路)下表现稳定[11][12] - 夜间逆光环境下成功识别横穿马路行人并及时避让[14] - 变道路线规划平顺 无保护转弯场景下能兼顾行车效率与安全性[16][19][21] - 隧道光照不佳时保持安全跟车距离的同时快速超越慢车[23] 与传统端到端方案差异 - 传统方案采用感知与规控分离的双模型架构 存在数据传递损失和规则依赖问题[27][29][30] - 新方案直接学习输入数据与输出轨迹的映射关系 通过强化学习迭代提升性能[33] - 摆脱规则依赖 避免系统泛化性低和驾驶逻辑不一致的问题[32] 技术实现与行业意义 - 采用通用AI司机基座大模型 复用L4级Robotaxi算法和数据训练架构[33] - 系统延迟需满足10Hz实时性要求 当前VLA方案在1000TOPS算力下延迟达530ms(约2Hz)[39][40] - 中国市场标配高阶智驾车型占比不足20% 方案旨在推动L2+越过价值拐点[42][44] - 技术目标为实现L4与L2架构统一 消除地理围栏限制[35]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-31 00:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
决定了!还是冲击自动驾驶算法
自动驾驶之心· 2025-08-30 12:03
自动驾驶行业人才需求与就业趋势 - 自动驾驶算法岗位薪资在AI行业中属于顶薪水平 特别是端到端、VLA和强化学习等方向[1] - 行业存在大量人才需求 主机厂和Tier 1企业积极招聘优秀人才攻坚L3/L4级别量产难题[1] - 具身智能领域热度上升 部分从业者转向机器人赛道 但自动驾驶行业仍需更多专业人才[1] 自动驾驶之心知识社区生态 - 社区成立三年 已发展成集视频、图文、学习路线、问答和求职交流的综合型平台[1] - 当前社区规模超过4000人 目标两年内达到近万人规模[1] - 社区提供40+技术路线梳理 涵盖端到端自动驾驶、VLA benchmark等前沿方向[2][5] - 邀请数十位产业界和学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖[2] 技术研究方向与资源汇总 - 汇总近40个自动驾驶技术方向 包括BEV感知、扩散模型、世界模型等核心领域[5][13] - 整理近60个自动驾驶数据集 包含多模态大模型预训练数据集和VLA微调专用数据集[13][30] - 提供100问系列专业解答 包括TensorRT部署、毫米波雷达融合等工程实践问题[6] - 开源项目覆盖3D目标检测、闭环仿真3DGS、自动驾驶大模型等关键领域[29] 行业培训与学术交流 - 开设全栈方向学习课程 专门针对0基础入门者设计[7][9] - 举办超过100场专业技术直播 邀请顶尖高校和企业专家分享最新研究成果[54] - 直播内容涵盖V2X技术发展、神经符号系统、3D检测基础模型等前沿话题[54] - 与国内外300多家机构和自动驾驶公司建立交流机制[66] 企业合作与就业服务 - 与多家自动驾驶公司建立内推机制 直接对接企业招聘需求[9] - 社区成员来自蔚小理、地平线、华为、大疆等头部企业[13] - 覆盖高校包括上海交大、清华大学、CMU、ETH等国内外知名院校[13] - 提供职业规划咨询 帮助解决offer选择、研究方向选择等实际问题[59][61] 技术发展前沿动态 - 端到端自动驾驶成为学术界和工业界研究热点 涵盖一段式/二段式量产方案[31] - 2025年VLA(视觉语言动作模型)成为最火方向 社区详细梳理最新综述和开源数据集[36] - 世界模型技术汇总涵盖技术前沿和业界应用 成为当前研究重点[33] - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[32] 行业发展趋势分析 - 2025年上半年自动驾驶面临量产挑战 学术界关注技术方向转型[64] - 端到端范式在学术界呈现多样化发展 但数据集迭代速度需跟上技术发展[63] - 无图NOA量产方案依赖在线高精地图技术 成为工业界关注重点[43] - 主流量产方案仍采用多模块融合方式 需要5个以上模型协同工作[61]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-30 00:03
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿领域[3] - 涉及世界模型、闭环仿真3DGS、大模型部署与量化感知推理等技术[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶级会议论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶领域资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]
华为坚定不走VLA路线,WA才是自动驾驶终极方案?
自动驾驶之心· 2025-08-30 00:03
华为汽车业务成绩与规模 - 截至7月搭载华为乾崑智驾车辆达100万辆 激光雷达发货量超100万台 辅助驾驶累计里程40亿公里 [3] - 截至8月底共有28款合作车型上市 涵盖五个界及阿维塔 深蓝 岚图 猛士 传褀 方程豹 奥迪等品牌 [3] - 车BU从2014年开始投资 历时超十年投入大量研发资源后实现当期盈利 [4] 技术路线战略 - 坚持WA(世界行为模型)技术路线 认为VLA(感知语言行为模型)非自动驾驶终极方案 [4][13] - WA通过vision等直接信息输入控车 无需转换为语言token 可能整合视觉 声音 触觉等多模态数据 [5][14] - 基于WA架构推出WEWA模型(云端世界引擎+世界行为模型) 将于ADS4.0部署 [6] - 辅助驾驶依赖数据驱动 算力与算法 未来行业需公共智能化平台 [15] 商业化与收费模式 - 辅助驾驶收费合理 因需持续迭代维护OTA投入成本 [8][17] - 免费辅助驾驶实为支付方式转移 或限时免费 或成本包含在车价中 或功能不完善 [7][17] - 采用全生命周期管理理念 用户初期购买成本高但长期体验更优 折算后成本不高 [8][18] 产品开发与用户体验 - 匹配新车型最快需6-9个月 [17] - 坚持全栈模式 软硬件充分耦合 保障鸿蒙座舱与乾崑智驾体验及维护升级 [10] - 鸿蒙座舱基于MoLA架构横向打通垂域 纵向打通应用生态与硬件设备 [10] 技术配置与安全理念 - 增加激光雷达等传感器配置为提升安全性 追求零伤亡事故 [19][22] - 例如尊界S800增加侧向与后向固态激光雷达 使系统精度达厘米级 避免泊车事故 [19][20] - 配置增加由用户场景驱动 如识别坑洼农田等复杂环境 [21][22] 未来发展规划 - 2026年辅助驾驶目标具备高速L3能力及城区L4试点能力 [11] - 2027年目标无人干线物流试点及城区L4规模化商用 [11] - 2028年目标无人干线物流规模化商用 [11] - 智能座舱方向发展为"数字保姆"与AI Agent [11]
用QA问答详解端到端落地:[UniAD/PARA-Drive/SpareDrive/VADv2]
自动驾驶之心· 2025-08-30 00:03
端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型 其中模块化端到端通过感知 预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块 输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径 各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成 检测query用于识别新目标 跟踪query动态变化以匹配目标消失 推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中 通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型:agent-agent(动态agent间交互) agent-map(静态地图交互) agent-goal(目标轨迹交互) motion query由目标点位置 上下文信息 当前位置及先验位置信息五部分组成 输出多模态轨迹 训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构 以历史场景特征和稀疏agent特征为输入 通过pixel-agent interaction的mask cross-attention机制 使场景特征聚焦于局部相关agent信息 最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式 所有子模块采用并行同步协同训练 仅通过更新的BEV query实现模块间联系 测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合(s8/s16/s32)作为encoder输入 decoder分两步:第一步用DETR方式精炼query并引入目标检测监督 第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器 对称稀疏感知和运动规划三部分 图像编码器提取多视角多尺度2D特征 对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式 结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率 规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹 训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化 时空交互和层级规划选择三部分 时空交互聚焦实例级历史交互 输出多轨迹和多规划方案 层级选择先根据驾驶命令筛选轨迹 再结合周围agent预测计算碰撞风险 最终输出最高分轨迹 [25]
转行自动驾驶赛道?别瞎踩坑!这几个公众号码住少走 1 年弯路
自动驾驶之心· 2025-08-30 00:03
文章核心观点 - 文章旨在为自动驾驶行业从业者及爱好者推荐多个垂直领域的专业公众号,以解决信息筛选困难、缺乏深度内容及专业交流平台等痛点 [1] - 推荐的公众号覆盖仿真技术、交通工程、法规标准、开源工具及开发者社区等细分赛道,提供精准聚焦的优质内容 [1] - 通过关注这些公众号,用户可一次性获取多维度专业视角,并拓展行业人脉 [1] 公众号推荐总结 车路漫漫 - 专注于自动驾驶仿真技术领域,博主为仿真工程师,创办于2021年,拥有4年深耕经验 [2][3] - 内容涵盖仿真基础概念解读、前沿算法优化、平台迭代、行业动态及求职招聘信息 [3] - 业务已拓展至低空仿真和机器人仿真领域,并拥有专属微信社群供技术探讨和人脉对接 [3] BigTrans - 聚焦城市交通理论与实践,内容涵盖交通工程、信号控制、交通仿真、数据挖掘及自动驾驶 [4][5] - 作为SUMO开源交通仿真中文社区媒体,社区人数超过4000人,拥有多个交流群,汇聚学界与业界专家 [5] - 已发布几十篇原创教程和SUMO使用QA文档 [5] 智驾小强 - 专注智能驾驶全球政策、法规与标准领域,提供700+法规标准解读及智驾知识科普 [6][7] - 公众号拥有20000+从业者关注,作者具备十余年自动驾驶开发经验,深度参与多项国际/国内法规制定 [7] - 内容以专业、前沿、观点客观犀利为特色,更新稳定且热点响应快 [7][8] CARLA引擎中文站 - 内容围绕开源自动驾驶仿真模拟器CARLA,包括官方资讯、技术教程、应用案例及前沿论文解读 [9][10] - 平台已接入24小时AI助手,并拥有多个技术交流群,用户可与核心开发者直接对话 [10] - 公众号汇聚了10000+使用者共同探讨技术经验 [10] 自动驾驶之心 - 定位为国内最大的自动驾驶开发者社区,关注方向包括VLA/VLM、BEV感知、多模态融合、规划预测等前沿技术 [11][12] - 公众号集视频创作、顶会直播、论文解读、职位分享于一体,吸引近300+自动驾驶与AI公司/机构关注 [12] - 创办了自动驾驶学习网站www.zdjszx.com [12]
机器人offer收割机,这个具身领域的黄埔军校不简单......
自动驾驶之心· 2025-08-29 18:26
社区发展现状 - 具身智能社区已有近2000名成员 目标2年内达到近万人规模 [1] - 社区提供视频 图文 学习路线 问答和求职交流等综合服务 [1] - 社区与多家具身机器人公司建立内推机制 提供岗位对接服务 [6] 社区资源与内容 - 汇总40+开源项目 60+具身智能数据集和行业主流仿真平台 [13] - 整理近30+技术路线 包括强化学习 VLA 多模态大模型等方向 [2][13] - 提供机器人仿真 数据采集 机械臂抓取等领域开源项目汇总 [27] 行业覆盖与合作伙伴 - 社区成员来自斯坦福大学 清华大学等高校和智元机器人 优必选等公司 [13] - 汇总国内外具身智能公司 涉及教育 工业 医疗等多个方向 [18] - 汇总机器人零部件制造厂商 包括芯片 激光雷达 相机等品牌 [25] 技术研究方向 - 涵盖具身感知 交互 导航 规划控制和大模型部署等多个领域 [13][44][61] - 重点关注VLA+RL Diffusion Policy sim2real等前沿技术 [37][55][57] - 提供多模态大模型理解与生成相关技术资源汇总 [48][50] 学习与支持体系 - 为入门者提供技术栈和学习路线 为进阶者提供产业体系和项目方案 [8][10] - 定期举办圆桌论坛和直播 分享行业动态和技术问题 [4] - 社区内部可自由提问 获得工作选择和研究方向的专业解答 [71]
ICCV'25港科大“先推理,后预测”:引入奖励驱动的意图推理,让轨迹预测告别黑箱!
自动驾驶之心· 2025-08-29 11:08
核心观点 - 引入"先推理,后预测"策略,通过奖励驱动的意图推理器提升轨迹预测的可解释性和可靠性 [5][8][10] - 提出FiM模型,在Argoverse和nuScenes基准测试中实现极具竞争力的性能,部分指标超越最先进模型 [10][33][36] - 结合强化学习范式(MaxEnt IRL)和结构化解码器(Bi-Mamba),显著提高预测准确性和置信度 [8][9][10] 方法框架 - 采用编码器-解码器结构,包含以查询为中心的场景编码器、Mamba增强的解码器和奖励驱动的意图推理器 [14][16] - 通过QIRL框架将MaxEnt IRL与矢量化上下文结合,学习奖励分布并生成意图序列(GRT) [8][18] - 使用辅助的时空占用网格地图(OGM)预测头建模未来交互,增强特征融合 [9][18] - 分层DETR类解码器生成轨迹提议,并通过Bi-Mamba结构捕获序列依赖关系 [9][19][21] 实验性能 - 在Argoverse 1测试集上,FiM的MR6为0.1087,minFDE6为1.1199,Brier分数为0.5732,部分指标领先HiVT、Scene Transformer等模型 [32][33] - 在Argoverse 2验证集上,FiM变体的minFDE6为0.528–0.530,优于DeMo(0.543)和QCNet(0.551) [34][35] - 在nuScenes数据集上,FiM的minADE10为0.78,MR10为0.23,显著超越P2T、THOMAS等模型 [36] 技术贡献 - QIRL模块有效替代交叉注意力机制,在消融实验中brier-minFDE6从2.132降至1.602 [37][38] - OGM和细化模块分别将brier-minFDE6从1.670和1.801优化至1.602 [40] - Bi-Mamba结构相比单向Mamba降低brier-minFDE6从1.636至1.602,验证双向扫描机制优势 [41][42] - 最优Mamba层深度为6层,更深层可能导致性能下降 [43]