自动驾驶之心

搜索文档
又一智能驾驶Tire 1将被收购...
自动驾驶之心· 2025-08-29 07:32
收购交易 - 国内最大地图供应商即将完成收购某知名Tier 1公司 进度接近完成[3] - 收购方成立于2002年 2023年确立转型为智能驾驶Tier1发展战略 去年开始全面布局舱驾一体方案业务[9] - 收购方在基础行车产品与舱泊产品已取得规模化订单 但高阶智驾研发进展滞后 去年10月明确表示将通过资本手段快速并入外部团队[11] 被收购方技术能力 - 提出7V鱼眼NOA方案:基于地平线征程6E芯片 以低于4000元成本实现高速NOA功能 支持城区记忆行车 已获得车企定点 预计2025年三季度量产[3] - 基于地平线J6的辅助驾驶系统已获得多个头部主机厂或Tier-1的量产订单[3] - 在BEV感知领域提出系列奠基之作 算法核心模块仍是经典量产方案 后续有端到端工作和结合3DGS的OCC预测工作[5] 公司运营状况 - 公司成立初期创始团队阵容豪华 但主打纯视觉方案 项目量产一直不太如意 在汽车霸主B的项目竞标中折戟 长期只有某新能源品牌L的项目[7] - 近期花费近10万元请汽车智驾自媒体PR宣传工程化能力 以此获得更多主机厂与Tier 1认可[3] - 内部管理存在问题 核心高层人品受质疑 技术人员能力一般 骨干人员相继离职包括感知、规控、产品等岗位[7] 协同效应 - 双方硬件平台适配性高度互补 都基于地平线J6平台进行量产研发[11] - 收购对双方都是利好 理论上高度互补[11] - 收购涉及400多名员工 暂时消息是短时间对员工不会有大变动[12]
英伟达自动驾驶算法工程师面试
自动驾驶之心· 2025-08-29 07:32
作者 | Neob0dy 编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 具体职位:规划控制方向,自主记忆泊车-自动开出,职位描述在最后。nv大军压境入局自动驾驶,和其他主机厂、L4创业公司相比最大的区别就 是职位划分真的非常细。hr表示nv今年没有校招名额,只有这个实习转正(说大概率可以转正),拿到offer后支持线上实习。笔试之后总共面了5 轮通过,笔试3道题,另外每面都有1-2道算法题。 笔试 已经记不太清了,一道打卡题图搜索,一道模拟没做出来,最后一道是leetcode难度中等的动态规划,给定一个数组,每次可以对相邻的两个数进 行异或操作,操作次数不限,问操作过后的结果相加最大是多少。问题转化之后和leetcode上一个小偷最多可以偷多少房间类似(不能偷相邻的不 然会触发警报)。测试用例第一题过了90,第二题寄了,第三题应该是边界没处理好过了70%。 一面 按流程自我介绍,问了几个项目,着重问了参加比赛的经历,怎么管理和领导团队。单独拎 ...
基于深度强化学习的轨迹规划
自动驾驶之心· 2025-08-29 07:32
强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数 优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆 在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型 采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务 适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种 自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈 价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报 动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数 包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种 后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程 衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标 高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]
告别高耗时!上交Prune2Drive:自动驾驶VLM裁剪利器,加速6倍性能保持
自动驾驶之心· 2025-08-29 07:32
研究背景与挑战 - 视觉语言模型(VLMs)为自动驾驶提供统一的感知、推理与决策框架,通过联合建模视觉输入与自然语言指令实现可解释性更强的场景理解,端到端设计可缓解传统模块化系统的误差传播问题 [2] - VLMs在真实驾驶场景部署面临核心障碍:多视图高分辨率图像带来巨大计算开销,自动驾驶系统通常采用6个同步相机实现全环境感知,这些图像经视觉编码器会生成大量视觉token,而Transformer架构的自注意力机制存在二次复杂度,视觉token与文本token拼接后会显著增加推理延迟与内存消耗,难以满足实时性要求 [3] - 现有token修剪方法存在三大局限:仅针对单张图像设计忽略多视图场景下的空间语义多样性与视图间冗余;多依赖特定层注意力权重选token与Flash Attention等高效注意力实现不兼容;未考虑不同相机视图对驾驶决策的贡献差异采用均匀修剪或手工设定比例无法实现全局最优 [4] Prune2Drive框架核心设计 - 提出Token-wise Farthest Point Sampling(T-FPS)机制,受点云处理中最远点采样启发,核心目标是最大化多视图token的语义与空间覆盖度而非仅依赖单个token显著性 [6] - T-FPS采用余弦距离衡量token间语义相似性避免因嵌入空间尺度差异导致的误选,每次新增token时选择与已选token集合语义距离最大的token,确保保留非冗余且语义丰富的信息 [7] - 设计视图自适应修剪控制器,将视图专属修剪比例转化为优化问题,以任务性能最大化为目标同时约束总修剪量保证效率,优化目标含奖励项通过语言相似度衡量VLM输出与真值任务匹配度,惩罚项为所有视图修剪比例总和反映计算开销 [11][12][13] 实验设计与结果 - 实验针对两大自动驾驶多视图VLM基准数据集DriveLM和DriveLMM-o1,验证Prune2Drive性能保留与效率提升能力,对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法 [16] - 在DriveLM数据集上修剪75%(保留180 token/图)时准确率达0.80(原模型0.81),BLEU-4达0.60高于所有基线,Match评分34.0甚至超过原模型33.9,平均得分58.3仅比原模型低0.8;修剪90%(保留72 token/图)时平均得分57.4比FastV高3.3比PACT高0.6 [20] - 在DriveLMM-o1数据集上修剪90%(保留25 token/图)时风险评估准确率达68.34比PACT高1.33,场景感知与目标理解达69.86比FastV高3.43,整体推理得分68.3比所有基线高1-3分 [21][22] - 效率提升显著:在保留10%token场景下,DriveMM上预填充阶段加速6.40倍,解码阶段加速1.09倍,FLOPs仅为原模型13.4%;DriveLMM-o1上预填充阶段加速2.64倍,解码阶段加速1.04倍,FLOPs为原模型20.3% [24][25] 消融实验与关键发现 - 距离度量中余弦距离表现最优,DriveLMM-o1整体得分达68.3;若改用选最近token策略性能暴跌至63.0,证明冗余token剔除对性能的关键作用;l1和l2距离性能稍差说明余弦距离更适配token嵌入空间的语义相似性衡量 [26][27] - 优化策略中TPE效果最好,DriveLM平均得分57.4;GridSearch和Evolutionary仅轻微落后分别得57.2和57.1,证明框架对优化策略鲁棒性 [27] - 定性对比显示FastV存在位置偏差因依赖注意力权重而过多保留后视图token漏掉前视图关键车辆;DART均匀修剪各视图未考虑视图重要性导致后右视图关键障碍物丢失;Prune2Drive通过视图自适应比例和T-FPS精准保留前视图白色车、黑色车及后右视图黑色车 [31] 核心优势总结 - 即插即用无需重训VLM,不依赖注意力图,兼容Flash Attention等高效实现 [31] - 多视图适配首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异 [31] - 性能-效率平衡极端修剪保留10%token下仅降3-6%性能,同时实现6.4倍加速与86%以上FLOPs降低 [31]
小米汽车招聘云端大模型算法工程师(BEV/3DGS/OCC等方向)
自动驾驶之心· 2025-08-28 18:24
小米汽车技术发展方向 - 公司重点投入云端大模型算法研发 聚焦4D真值自动化标注和多模态大模型技术方向[2] - 公司致力于通过无监督/自监督算法提升大模型的语义理解能力和空间感知能力[2] - 公司正在构建数据驱动的自动驾驶算法迭代链路 开发高效自训练pipeline提升数据闭环效率[2] 自动驾驶技术布局 - 公司优先考虑具有自动驾驶相关项目经验的算法人才[1] - 算法研发涵盖BEV感知/3D检测/分割/Occupancy Network/多传感器融合等核心领域[2] - 技术方向包括NeRF/单目/多目深度估计/三维重建等前沿研究领域[2] 人才招聘策略 - 公司要求候选人具备扎实的C++或Python编程能力及数据结构算法基础[2] - 优先考虑计算机/数学/机器学习/机器人/自动驾驶相关专业背景[2] - 特别重视具有NeRF/3D场景生成/传感器仿真等应用经验的人才[2]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 16:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]
死磕技术的自动驾驶黄埔军校,三年了~
自动驾驶之心· 2025-08-28 11:22
社区规模与愿景 - 自动驾驶之心知识星球是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自驾社区 目前成员超过4000人 未来2年目标规模达到近万人[1] 技术资源覆盖 - 社区内部梳理了近40+自动驾驶技术路线 覆盖端到端自动驾驶、多模态大模型、VLA benchmark等热门方向[2][5] - 汇总近40+开源项目、近60+自动驾驶相关数据集以及行业主流仿真平台[13] - 包含国内高校著名自动驾驶团队整理、自动驾驶领域企业介绍、会议及数据集与标定工具等资源[6] 行业专家与交流 - 邀请数十位活跃在一线产业界和工业界的自动驾驶领域嘉宾 包括经常出现在顶会和访谈中的大佬[2] - 不定期与学术界和工业界大佬畅聊自动驾驶发展趋势 探讨技术走向和量产痛点[4][62] - 社区成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部高校和企业[13] 学习路线与课程 - 提供全栈方向学习课程 非常适合0基础小白[7] - 详细梳理端到端自动驾驶学习路线 包括一段式/二段式量产方案应用[16][31] - 涵盖自动驾驶感知、仿真、规划控制学习路线 以及VLA、多模态大模型、3DGS等前沿技术[13][31][36] 求职与内推机制 - 与多家自动驾驶公司建立岗位内推机制 可第一时间将简历送至心仪公司[9] - 社区内部讨论涵盖职业规划、offer选择、实习建议等求职相关问题[61] - 汇总自动驾驶领域企业介绍及国内外各类自动驾驶相关机器人公司[24][28] 前沿技术讨论 - 端到端自动驾驶作为学术界和工业界研究热点 社区详细梳理相关算法、量产方案及数据集[31][63] - 聚焦视觉语言模型(VLM) 汇总最新综述、开源数据集及思维链推理等内容[34][35] - 覆盖扩散模型、世界模型、3D目标检测、多传感器融合等当前研究热点[38][40][42] 直播与专业分享 - 社区内部已举办超过一百场专业技术直播 邀请行业大佬分享最新工作[57] - 直播内容涵盖VLA模型、3D检测基础模型、扩散规划算法等前沿技术[57] - 会员可独享世界模型、自动驾驶大模型、Transformer等七大福利视频教程[54]
没有数据闭环的端到端只是半成品!九大议题权威解析~
自动驾驶之心· 2025-08-28 07:33
论坛基本信息 - 论坛主题为51Sim端到端数据闭环生态论坛 聚焦端到端时代数据驱动闭环升级及仿真测试探索[1][4][5] - 论坛将于2025年8月28日13:00-17:00在上海世博展览馆B1层2号会议厅举办 参会需免费注册测试展门票[1][9] - 活动将通过51Sim视频号和我爱自动驾驶之心视频号同步直播[12] 演讲嘉宾与议题 - 51Sim CEO鲍世强将致开场欢迎词[3] - 51Sim车辆事业部总经理张晓娜将分享端到端时代数据驱动闭环全新升级的挑战与进展[5] - 长城汽车智能驾驶高级专家敬将探讨端到端时代仿真测试的思考与探索[5] - 东风汽车智驾系统开发主任张敏超将介绍轻型商用车自动驾驶系统设计及验证[5] - 北京汽车智能驾驶部高级专家总轩将分享北汽智驾仿真能力建设及实践[5] - 中汽智能科技主任工程师陈硕将发表面向合规的驾驶自动化仿真测试可信度评估技术研究[7] 公司业务概况 - 51Sim是2017年孵化的国内领先AI合成数据与仿真平台公司 专注于突破物理世界数据多样性瓶颈[17] - 核心产品包括智能辅助驾驶与机器人仿真平台SimOne 数据闭环与合成数据平台DataOne[17] - 已为全球超百家行业客户提供全场景合成数据与仿真训练闭环解决方案 覆盖智能辅助驾驶 智能装备和通用机器人等具身智能领域[17]
超高性价比3D扫描仪!点云/视觉全场景重建,高精厘米级重建
自动驾驶之心· 2025-08-28 07:33
产品核心特点 - 国内最强性价比实景三维激光扫描仪 轻量化设计 一键启动 提供高效实用三维解决方案 [1] - 以多模态传感器融合算法为核心 实现厘米级精度三维场景实时重构 [1] - 每秒20万点云成图 70米测量距离 360°全域覆盖 支持20万平米以上大场景 [1] - 支持选配3D高斯数据采集模块 实现高保真实景还原 [1] - 支持跨平台集成 配备高带宽网口及双USB 3.0接口 为科研实验提供灵活扩展空间 [1] 技术参数 - 系统运行于Ubuntu 20.04 支持ROS 设备自带手持Ubuntu系统和多种传感器设备 [3][22] - 点云数量达20万点/秒 相对精度优于3cm 绝对精度优于5cm [22][29] - 尺寸14.2cm*9.5cm*45cm 重量1.3kg(不含电池) 续航时间约3-4小时 [22] - 采用Intel N5095处理器 4核2.0GHz 内存16G/硬盘256G 支持可拓展TF卡 [22] - 配备微秒级同步模组 同步精度达微秒级 支持硬件IO同步触发 [23] 传感器配置 - 集成激光雷达(Livox Mid-360) 深度相机(Intel D435i) RTK(T-RTK UM982 Mobile) [23] - 配备高精度IMU 频率最高800HZ 提供加速度 角速度 磁力计 姿态角数据包 [23] - 激光雷达25°倾斜角度安装 兼顾多个方位 无需反复采集 [15] - 采用9DOF IMU 双广角相机 深度相机 微秒级同步模块 [13] 供电系统 - 电池容量14.8V/6000mAh/88.8Wh 功率25W [22][26] - 电源输入13.8V-24V 支持D-TAP和USB-C多种供电方式 [22][26] - 手柄集成电源 通过D-TAP转XT30母头输出至设备本体 [3] 软件功能 - 支持三维点云地图动态构建 色彩融合 实时预览 [22] - 导出数据格式包括pcd las plv等多种通用格式 [22] - 提供快速建图程序 彩色点云建图 3D高斯采集功能 [42][43] - 支持RTK功能 需要注册账号并填写IP地址 端口号等信息 [43] 应用场景 - 广泛用于写字楼 停车场 工业园区 各类隧道 森林 矿场等工作环境 [38][46] - 支持跨平台集成 适配无人机 无人车 机械狗 人形机器人等多种负载平台 [44] - 适用于地理信息数据采集 城市规划 文昌监测等领域 [52] - 可用于监控工程数据 确保施工精度并降低返工 [54] 版本与定价 - 基础版本售价19800元 深度相机版本23800元 [57] - 3DGS在线版本39800元(云服务续费5000/月) 3DGS离线版本67800元 [57][58] - 标配版包含GeoScan S1主机 软件 RTK配件 在线用户手册 [58] - 升级版增加深度相机 3DGS版本额外包含备用电池 3D高斯采集配件 [58] 研发背景 - 由同济大学刘春教授团队和西北工业大学产业化团队携手合作 [9] - 基于多年科研和行业积累 经过上百个项目验证 [9] - 设备采用航空铝外壳 配备5.5寸触控屏(1280x720分辨率) [22]
理想汽车智驾方案MindVLA方案详解
自动驾驶之心· 2025-08-28 07:33
文章核心观点 - 理想汽车推出MindVLA自动驾驶框架 通过整合空间智能模块、语言智能模块、动作策略模块和强化学习模块 构建端到端自动驾驶系统 其核心技术包括自监督3D高斯编码器预训练、定制化大语言模型设计以及基于扩散模型和人类反馈的轨迹生成方案 显著提升自动驾驶系统的空间理解能力、交互博弈能力和人类偏好对齐能力[3][5][9] 空间智能模块 - 采用3D高斯编码器处理多模态传感器数据 提取时空特征并融合语义信息形成统一表征[5] - 传统BEV方法存在高度信息压缩导致细节丢失 稀疏查询可能忽略关键环境细节 密集体素表示计算开销大[8] - GaussianAD框架用均匀高斯序列初始化3D场景 通过4D稀疏卷积实现高斯交互 支持稀疏体素特征预测和目标检测[12][20] - 高斯表示通过多视角图像优化高斯参数 生成稀疏3D语义高斯集合 每个单元描述局部几何和语义属性 减少冗余计算同时保留细粒度结构[16] 语言智能模块 - 嵌入式部署大语言模型MindGP 支持空间与语言联合推理 实现语音指令和反馈的人车交互功能[5] - 基于互联网多模态数据训练的通用LLM缺乏3D空间理解能力 需从零开始预训练适合自动驾驶场景的基座模型[18] - 采用稀疏化设计减少模型容量 通过MoE+SparseAttention结构平衡参数量与推理速率 实现10HZ实时推理性能[27] - 训练数据配比重构 增加3D场景数据和自动驾驶图文数据比例 降低文史类数据占比[27] 动作策略模块 - 使用扩散模型生成车辆未来行为轨迹 引入噪声引导扩散过程以产生多样化动作规划[5] - 扩散策略将action token解码为自车、他车和行人轨迹 提升复杂交通环境下的博弈能力[22] - 采用多层DIT结构 基于ODE采样器加速生成过程 在2-3步内完成稳定轨迹生成[28] - 通过人类反馈驱动的强化学习微调 对齐专业驾驶员行为 提高安全驾驶下限[28] 强化学习模块 - 使用World Model模拟外部环境响应评估行为后果 奖励模型提供偏好或安全性评估 可能采用RLHF技术[5] - 通过闭环学习根据行为轨迹进行持续优化和泛化[5] - TrajHF框架结合扩散策略生成多样化候选轨迹 通过RLHF微调对齐人类偏好 同时用行为克隆损失保留基础驾驶能力[26][28] - 偏好数据自动构建通过人类接管数据识别六类驾驶风格 关键帧标注实现大规模自动注释[33] 技术实现细节 - 感知任务采用高斯编码器块 包含自编码模块促进高斯交互、图像交叉关注模块聚合视觉信息、细化模块微调高斯属性[17] - 预测与规划端到端训练 结合未来高斯流和占用情况优化轨迹 最小化碰撞风险与轨迹偏差[20] - 支持多任务监督包括3D检测、语义地图、运动预测和占用预测 通过损失函数联合优化[20] - 推理系统采用双模式:CoT生成加速使用小词表+投机推理 action token生成采用并行解码方式[27]