Workflow
自动驾驶之心
icon
搜索文档
基于LSD的4D点云底图生成 - 4D标注之点云建图~
自动驾驶之心· 2025-06-24 20:41
4D标注技术 - 4D标注指三维空间+时间维度,能映射到任意时刻生成单帧真值用于模型训练,相比传统单帧标注可降低标注成本并提高数据质量[3] - 专注于小区域静态和动态元素标注,需支持"单趟建图"、"多趟建图"和"重定位"等关键技术[3] - 需适配有GNSS的行车场景和无GNSS的泊车场景[3] LSD框架 - 开源算法框架LSD整合数据采集、传感器标定、SLAM建图定位和障碍物检测功能,支持激光雷达4D点云底图生成[3][4] - 采用FASTLIO作为前端激光里程计,后端基于G2O融合GNSS观测和回环检测实现位姿图优化[7] 单趟建图技术 - 通过单次采集数据构建时空连续的高精度点云底图,适用于高速高架场景标注[5] - 采用FASTLIO前端里程计,后端融合GNSS观测和回环检测,优化GNSS异常点处理[7] - 处理GNSS异常点的两种策略:延迟使用(GNSS状态保持FIX 10秒才启用)和DCS鲁棒核函数(动态调整GNSS权重)[8][9][12] 雷达里程计退化处理 - 基于LOAM和X-ICP方法实现退化检测,通过特征贡献度分析识别退化方向[15] - 在隧道等退化场景中融合轮速传感器观测,提升纵向定位精度[17][18][19] GNSS杆臂误差校正 - 杆臂误差导致车辆转弯时点云重影,LSD将杆臂作为三维变量在PGO中估计[21][25][26] - 添加(0,0,0)先验约束解决不可观测性问题,优化后消除60cm错位[27][28][30] 回环检测与地图管理 - 通过GICP匹配实现地下停车场回环检测,减少里程计累积误差[31][32] - 采用ivox结构替代ikd-tree管理局部地图,通过LRU缓存和行驶距离约束避免重影[34][37] 多趟建图与地图合并 - 行车场景通过坐标系统一和GICP匹配优化合并多趟地图[40] - 泊车场景采用ScanContext+PCM算法估计坐标系变换矩阵实现无GNSS地图合并[42] 重定位应用 - 在标注真值底图上实现重定位以持续获取新数据标注,降低边际成本[44] - 采用固定真值地图关键帧节点的优化方案[44] 行业技术趋势 - 数据驱动算法推动4D标注需求增长,LSD框架提供开源解决方案[3][47] - 多传感器融合(激光雷达+GNSS+轮速)和退化场景优化成为技术重点[15][17][40]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 19:47
课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 15:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
自动驾驶之心· 2025-06-24 10:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题 通过执行感知机制和轻量化网络架构实现高效任务切换 无需额外采集数据 [3][5][12] - 方法在单任务性能上与主流模型(如π0 3 3B)相当 参数量仅0 27B 在任务切换场景下成功率显著超越现有SOTA [20][21] - 技术方案包含三方面创新 任务切换表示方法(上一任务+当前任务+阶段状态) 轻量化VLM主干网络(Florence-2-base 0 23B) 以及基于阶段定义的数据采样算法 [12][13][15][16] 背景与问题定义 - 当前基于模仿学习(IL)的VLA模型在多任务训练时存在独立采集缺陷 任务A结束状态与任务B开始状态需严格匹配才能切换 [5] - 实际应用场景(如便利店)存在动态指令变更需求 现有方法无法处理"执行中途切换任务"的情况 导致成功率骤降(如π0在Mid Switch场景仅8 3%成功率) [5][20][21] - 传统解决方案存在三大局限 大模型规划存在算力瓶颈(需100ms内响应) 数据采集方法不可扩展 基于规则的方法缺乏智能性 [8][10] 方法论 任务切换表示 - 用三元组(上一任务+当前任务+上一任务阶段)替代传统任务描述输入 通过token拼接实现多模态特征融合 [12][13] - 将任务阶段简化为三类 接触物品前(forward) 接触中(rollback) 接触后(advance) 分别对应不同动作策略 [15] 模型架构 - 采用Florence-2-base作为主干VLM 参数量0 23B 支持实时推理 [13] - 设计Instruction & Contact Aggregator模块 整合任务切换特征 机器人状态和动作噪声 [13] 训练创新 - 无需额外采集数据 通过时间逆序数据生成rollback动作 通过状态插值生成advance动作 [16] - 提出随机采样算法 根据任务切换表示动态分配对应动作类型 保持方法可扩展性 [16] 实验结果 性能对比 - 单任务场景 成功率93% 与π0(92 3%)相当 参数量仅为后者8 2% [20][21] - 任务切换场景 在Early/Mid/Late Switch阶段成功率分别达93 5%/50 9%/68 7% 显著高于π0(40 7%/8 3%/10 2%) [21] - 长任务链测试 在A→B→C→D→E→F序列中仿真环境成功率75% 真机环境54% 其他方法均为0% [21] 失败分析 - 主要解决Mid Switch阶段失败问题 成功率从基准方法8 3%提升至50 9% [20][21] - 在Workstation 2测试中 Late Switch阶段成功率96 5% 较π0(64 6%)提升49% [21] 应用展望 - 计划部署于天工人形机器人 结合"慧思开物"平台赋能工业柔性生产和商业服务 [23] - 未来方向包括提升复杂任务随机应变能力 实现高精度丝滑操作(当前真机任务链成功率最高83 3%) [21][23]
端到端系列!SpareDrive:基于稀疏场景表示的端到端自动驾驶~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶技术研究 - 现有端到端方法存在两个主要问题:BEV范式算力消耗大,预测与规划串联式设计忽略自车信息且两者均为多模态问题 [2] - 提出SparseDrive解决方案:采用稀疏场景表示的端到端方法,实现预测与规划并行处理 [2] - 技术贡献包括:探索稀疏场景表示、分层规划选择策略、在nuScenes数据集达到SOTA水平 [5] 模型架构与训练 - 主体结构沿用地平线Sparse系列思想,包含特征提取、对称稀疏感知、平行运动规划器等模块 [5] - 采用多任务损失函数:${\mathcal{L}}={\mathcal{L}}_{d e t}+{\mathcal{L}}_{m a p}+{\mathcal{L}}_{m o t i o n}+{\mathcal{L}}_{p l a n}+{\mathcal{L}}_{d e p t h}$ [9] - 训练分为两个阶段:stage1从头训练稀疏感知模块(SparseDrive-S:100 epochs,lr 4×10-4),stage2微调(10 epochs,lr 3×10-4) [10] 性能对比 感知能力 - SparseDrive-B在3D检测指标全面领先:mAP 0.496 vs UniAD 0.380,NDS 0.588 vs 0.498 [11] - 多目标跟踪表现:AMOTA 0.501(SparseDrive-B)显著优于UniAD 0.359,Recall达0.601 [11] - 在线建图能力:MAP 56.2(SparseDrive-B)超越VectorMapNet 56.1和MapTR 58.7 [17] 运动预测与规划 - 预测指标:minADE 0.60m(SparseDrive-B)优于UniAD 0.71m,MR 0.132 vs 0.151 [18] - 规划指标:平均L2误差0.58m(SparseDrive-B),碰撞率0.06%显著低于UniAD 0.61% [18][24] - 效率优势:SparseDrive-S推理速度9FPS,显存占用1294M,远优于UniAD的1.8FPS/2451M [20] 工业级课程体系 - 课程覆盖端到端算法全链路:从基础模块(感知/预测/规划)到完全端到端方案(UniAD/VAD/SparseDrive等) [34][46] - 实战内容包含环境配置、数据加载、核心代码解析及可视化,配套UniAD和PlanT算法完整实现 [35][36] - 目标受众:自动驾驶领域研究生、算法工程师及转行人员,需具备Python/PyTorch基础及GPU环境 [55][56]
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶研究进展 - 将类人推理能力融入端到端自动驾驶系统成为前沿领域 视觉语言模型(VLM)方法受到工业界和学术界广泛关注[1] - 现有VLM训练范式依赖自由格式文本标注 存在同义表达复杂性和信息冗余问题 增加模型学习难度和计算开销[1] - 基准模型通常依赖超70亿参数的大语言模型 导致高昂计算成本、内存消耗和推理延迟[3] NuScenes-S结构化数据集 - 数据集包含102K问答对 其中84K用于训练 18K用于测试[21] - 场景描述结构化要素包括:天气(5类)、交通状况(3类)、驾驶区域(7类)、交通灯(3类)、交通标志(8类)、道路状况(4类)、车道线(8类)、时间(2类)[7][8] - 感知预测任务包含:相机视角(6类)、2D边界框坐标、未来状态(7类)[12] - 决策任务分为横向移动(5类)和纵向移动(4类)[13] - 构建过程采用GPT预标注+人工细化的混合方式 通过规则提取关键目标[9] FastDrive算法模型 - 采用0.9B参数紧凑设计 相比传统70亿+参数模型大幅降低计算资源需求[4] - 网络架构遵循"ViT-Adapter-LLM"范式 包含视觉编码器(ViT主干)和LLM代理(Qwen2.5)[17][19] - 引入TokenPacker模块减少标记数量 提升推理速度[18] - 实现思维链式推理流程 完成场景理解→感知→预测→决策的全流程[19] 实验性能表现 - 语言指标:FastDrive256版本BLEU-4达70.36 ROUGE_L达87.24 显著优于DriveLM基准[22] - 场景理解准确率:天气识别99.95% 交通标志识别87.64% 全面超越对比模型[22] - 预测决策任务:在车道线状态预测(76.49%)和纵向控制决策(82.06%)等关键指标领先[22][25] - 消融实验证实结构化标注使决策准确率提升12.8%[24][25] 技术社区生态 - 自动驾驶技术社区覆盖30+技术方向 包括BEV感知、多传感器融合、轨迹预测等前沿领域[27] - 专业课程体系包含端到端自动驾驶、大模型部署、NeRF等20+细分方向[29] - 行业参与度:近300家企业和科研机构加入 形成4000人规模交流社区[27]
ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR'25)
自动驾驶之心· 2025-06-23 19:34
核心观点 - 提出统一的多模态多任务学习框架MMTL-UniAD,可同步识别驾驶员行为、情绪、交通环境及车辆行为四项任务,解决现有研究忽视任务间联合学习潜力的问题 [1][5][26] - 通过多轴区域注意力网络(MARNet)和双分支多模态嵌入模块两大核心组件,有效缓解多任务学习中的负迁移现象,实现任务共享特征与特有特征的动态平衡 [5][7][14] - 在AIDE数据集上验证显示,MMTL-UniAD在四项任务中均达到SOTA性能,mAcc指标提升4.10%-12.09%,驾驶员行为识别和车辆行为识别准确率分别提升4.64%和3.62% [18][26] 算法设计 多轴区域注意力网络(MARNet) - 采用水平-垂直双向注意力机制提取全局上下文信息,结合区域注意力筛选任务相关特征,减少无关特征导致的负迁移 [11][12] - 将特征图划分为独立区域并计算区域级注意力,通过相似度矩阵选取最相似邻域区域,增强关键特征提取能力 [12] 双分支多模态嵌入模块 - 任务共享分支整合多模态信息学习通用表示,任务特有分支通过一维卷积和多头注意力动态调整模态权重,保留任务特性 [14][16] - 自适应调节两类特征权重,实验表明移除该模块会导致mAcc下降5.34%,验证其平衡共享与特有特征的有效性 [25] 实验结果 性能对比 - 在2D模型、2D+时序建模、3D模型三类对比方法中全面领先,四项任务最高准确率达DER 76.67%、DBR 73.61%、TCR 93.91%、VBR 85.00% [18][20] - 消融实验显示,联合训练驾驶员状态与交通环境任务可使双方准确率提升3.50%-4.45%,单任务训练会导致性能下降3.98%-6.13% [22][23] 模块贡献 - 单独移除MARNet或双分支模块均导致mAcc下降至70.25%-76.96%,证明二者协同作用对性能提升的关键性 [24][25] - 多模态数据联合使用(面部+身体姿态+场景)相比单一模态可使mAcc提升5.39%-26.61% [25] 行业意义 - 为ADAS领域提供首个整合驾驶员状态与交通环境识别的多任务框架,推动跨模态特征共享技术发展 [5][26] - 开源代码与模型结构有望成为行业基准,加速智能辅助驾驶系统向高效自适应方向演进 [1][26]
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 19:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
为什么一篇论文要耗尽整个研究生生涯?
自动驾驶之心· 2025-06-23 16:03
核心观点 - 公司提供自动驾驶、具身智能、机器人领域的论文辅导服务,覆盖选题、实验设计、写作投稿全流程,旨在帮助学生高效产出高质量论文 [2][3][4] - 服务团队由全球QS前100高校的300+专家组成,近3年辅导400+学员,中稿率达96% [3] - 辅导方向聚焦前沿技术,包括大模型、端到端自动驾驶、多传感器融合等20+细分领域 [5][7] 服务定位 - 目标用户为本科生至博士生,解决从课程论文到顶会投稿的全阶段学术需求 [4] - 提供1对1定制化辅导,匹配强相关研究背景的导师,拒绝模板化服务 [7][9] - 覆盖CCF-A/B/C类会议期刊及SCI/EI等全等级投稿需求 [11] 技术领域覆盖 - 自动驾驶方向涵盖BEV感知、轨迹预测、3D目标检测等15+技术分支 [5] - 具身智能方向包括VLA、强化学习、仿真交互等8大领域 [5] - 机器人领域覆盖SLAM、决策规划等交叉学科技术 [5] 服务内容 - 全流程支持:从选题创新点挖掘到审稿意见回复的7个关键环节 [4][12] - 实验级指导:包含算法实现、硬件调试、数据集处理等实操难题解决方案 [12] - 写作优化:针对逻辑结构、图表呈现等学术规范提供深度修改建议 [12][15] 核心优势 - 导师团队100%具有顶会发表经验,熟悉CVPR、ICRA等会议评审标准 [8][11] - 服务聚焦自动驾驶等三大领域,深度理解技术发展趋势与评审偏好 [5][8] - 提供前沿动态追踪服务,帮助学生定位关键文献与技术脉络 [12][13] 成果交付 - 明确产出路径:平均1-2年论文周期可缩短至高效产出阶段 [2][15] - 提升录用概率:通过专业投稿策略指导显著提高顶会命中率 [12][15] - 方法论沉淀:培养学生独立科研能力,形成可持续的学术思维体系 [15]
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 22:09
大模型微调技术 - 大模型高效微调成为业界焦点 无论是通用大模型还是智驾大模型 如何通过轻量微调变成专业模型成为热点话题 [2] - 开发大模型成本极高 ChatGPT单次训练成本超千万美元 DeepSeekv3单次训练成本超500万美元 小公司或个人难以承担 [2] - LoRA通过旁路降维再升维操作模拟intrinsic rank 训练时固定预训练模型参数 仅训练降维矩阵A与升维矩阵B [3] - LoRA初始化采用随机高斯分布初始化A 0矩阵初始化B 保证训练开始时旁路矩阵为0矩阵 [3] - LoRA思想类似残差连接 通过旁路更新模拟全参数微调过程 全参数微调可视为LoRA特例 [11] - LoRA推理时几乎不引入额外延迟 只需计算W=W0+△W [12] 多模态大模型课程内容 - 第一章介绍多模态大模型基础概念 包括结构&训练范式 公开数据集 应用场景 课程框架 [18] - 第二章讲解多模态大模型基础模块 包括模态编码器 Input Projector LLM Backbone Output Projector Modality Generator [20] - 第三章聚焦通用多模态大模型 涵盖图文理解 视频理解 任意模态 轻量大模型 统一视觉任务大模型算法 [22] - 第四章专注微调与强化学习技术 包括Adapter LoRA QLoRA Reward Model+PPO KTO DPO等算法实战 [25] - 第五章探讨多模态大模型在自动驾驶应用 包含DriveVLM等端到端自动驾驶前沿算法 [27] - 第六章提供求职专题 涵盖行业公司 发展方向 应用瓶颈 面试准备等实战经验 [29] 课程相关信息 - 讲师为一线大厂高级算法工程师 研究方向包括多模态大语言模型 Agent 参与过多车型量产项目 [32] - 课程适合高校研究人员 初创团队 企业技术骨干 转行人员等群体 [35] - 课程收获包括掌握通用大模型理论 自动驾驶前沿算法 微调部署能力 实际问题解决能力等 [36]