Workflow
自动驾驶之心
icon
搜索文档
从理想VLA看自动驾驶技术演进路线...
自动驾驶之心· 2025-08-25 19:29
理想VLA司机大模型技术突破 - 具备更懂语义的多模态输入、更擅长推理的思维链和更接近人类驾驶直觉的轨迹规划三大核心能力提升 [1] - 核心能力包括空间理解、思维能力、沟通与记忆以及行为能力四大维度 [1] - 技术融合动态目标、静态元素、导航地图和空间理解等多元素协同 [3] VLA技术发展趋势 - 由VLM+E2E发展而来,涵盖端到端、轨迹预测、视觉语言模型和强化学习等前沿技术栈 [3] - 学术界重点转向大模型与VLA方向,传统BEV感知和车道线等研究方向在顶会中出现减少 [3] - 工业界持续优化传统感知与规划方案,但学术研究重心已明确转向VLA领域 [3] 科研辅导课程框架 - 课程周期为12周在线小组科研加2周论文指导和10周论文维护期,总时长约3.5-4个月 [13][32] - 每周安排1-1.5小时课程,覆盖先导课、课题概览、选题讨论和具体技术模块深度解析 [8][10][29] - 提供模块化VLA模型、统一端到端模型和推理增强模型三大核心研究方向 [34][36] 课程资源支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse等,并支持大语言模型生成数据 [26] - 基线代码覆盖模仿学习、扩散模型和VLA端到端自动驾驶等多类开源项目 [25] - 必读论文包括Senna、SimLingo、OpenDriveVLA和ORION等核心研究成果 [27][28] 学员能力培养目标 - 系统掌握VLA理论体系并深化算法设计及创新思路 [5][14] - 通过基线代码和数据集高效开展实验研究,形成论文初稿 [19][33] - 获得论文写作方法论、修改指导和投稿建议等全流程支持 [5][19] 技术实践要求 - 硬件最低要求为4张4090显卡,推荐配置为8张4090或更高性能设备 [20] - 需掌握Python编程和PyTorch框架,具备Linux系统开发调试能力 [20] - 要求每周课后投入至少1-2小时自学时间并按时完成作业 [18][22] 学术服务机制 - 采用"2+1"多师制教学团队,包括主导师和科研论文班主任双轨支持 [23] - 提供个性化研究idea,每位学员均可获得专属课题方向 [19][33] - 课程产出包含论文初稿、结业证书和优秀学员推荐信 [23]
正式结课!动静态/OCC/端到端自动标注一网打尽
自动驾驶之心· 2025-08-25 11:15
自动标注技术发展现状 - 行业对自动标注投入显著增加 人力物力投入明显加大[1] - 智能驾驶泛化进入深水区 端到端量产对统一场景标注要求提高[1] - 4D自动标注成为数据闭环核心算法 涵盖3D空间加时间维度的动态标注[1] 自动标注技术难点 - 时空一致性要求极高 需在连续帧中精准追踪动态目标运动轨迹[2] - 多模态数据融合复杂 需同步融合激光雷达相机雷达等多源传感器数据[2] - 动态场景泛化难度大 交通参与者行为不确定性及环境干扰增加挑战[2] - 标注效率与成本矛盾 高精度标注依赖人工校验导致周期长成本高[2] - 量产场景泛化要求高 不同城市道路天气交通状况数据挖掘存在痛点[2] 课程核心内容体系 - 全面掌握4D自动标注整体流程和核心算法[3] - 动态障碍物检测跟踪及数据质检实战[3][6] - 激光视觉SLAM重建原理和实战演练[3][7] - 基于重建图的静态元素标注方法[3][9] - 通用障碍物OCC标注全流程[3][10] - 端到端标注主流范式和实战教学[3][12] 动态障碍物标注技术细节 - 采用离线3D目标检测算法 包含Image/Lidar数据增广方法[6] - 应用BEV/多帧时序融合方案 解决工程误漏检问题[6] - 3D多目标跟踪算法涵盖数据匹配速度模型轨迹管理[6] - 使用时序后处理算法DetZero 优化传感器遮挡问题[6] 静态元素标注技术方案 - 基于SLAM重建输出获取全局clip道路信息[9] - 采用重建图方式得到静态元素自动化标注结果[9][11] - 区别于动态元素单帧感知方式 避免道路投影偏差[9] 端到端真值生成技术 - 涵盖动态障碍物静态元素可行驶区域自车轨迹全流程[12] - 包含一段式和两段式端到端实现方案[12] - 采用闭环仿真DrivingGaussian算法 扩展端到端自动驾驶视野[12] 行业应用与人才需求 - 课程面向高校研究人员企业技术团队及转行人员[18][23] - 要求具备深度学习和自动驾驶感知算法基础[23] - 需要掌握Transformer模型结构及Python/PyTorch编程能力[23] - 学习者需自备不低于12G显存的GPU设备[23] 讲师专业背景 - 讲师为C9院校硕士 一线大厂数据闭环算法专家[16] - 专注多模态3D感知和数据闭环方向[16] - 具有4D自动标注算法开发及工程化落地丰富经验[16] - 参与过多项量产交付项目 拥有量产专利和专业论文[16]
某头部tire1被央企主机厂控股投资事宜确定~
自动驾驶之心· 2025-08-25 07:32
央企主机厂战略投资控股智驾算法方案商Z - 某头部智驾算法方案商Z被某央企主机厂控股投资方案已获审批通过 目前只待官宣[2][4] - 双方自2024年开始协商 2025年Z先后获另两家国资主机厂投资[3] - 战投控股完成后Z成为"国字号"队伍 拥有更广泛客户群及充沛资金[5] 智驾算法方案商Z与地平线平台合作 - Z正基于地平线J6 E/M平台开发智驾方案 前期主推该平台[2] - 地平线生态企业最多、客户群最广泛 J6 E/M是中算力平台且为"全民智驾"主力产品[6] - Z在中低算力芯片平台拥有极强工程化能力 此前困在TI平台未能发挥市场竞争力[6] 智驾行业竞争格局变化 - Z加入地平线生态将影响原主力算法商QZ的上市预期 QZ正谋求基于英伟达平台量产[6] - Z的品牌知名度在一众智驾供应商中仅次于顶流H[6] - 智驾行业进入大军团作战阶段 需解决L3长尾问题 需要天量人力、算力和数据资源[6] 行业整合趋势 - 智驾独立团队需与大集团整合合作才有战斗力 案例包括轻舟背靠奇瑞、元戎背靠长城、旷视与吉利智驾部门整合[6] - 未来智驾赛道只会剩下一千人以上的公司[6] - 智驾不再是创业公司和小团队能完成的事情 而是规模效应明显的工业化领域[6]
从零开始!自动驾驶端到端与VLA学习路线图~
自动驾驶之心· 2025-08-25 07:32
端到端与VLA自动驾驶技术发展 - 端到端自动驾驶技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多个领域技术栈 [32] - 技术发展从模块化方法演进至端到端范式 包括一段式、二段式和VLA范式 [36] - VLA(视觉语言动作)成为当前端到端自动驾驶的皇冠技术 上限高且业内招聘需求旺盛 [46] Transformer与大语言模型基础 - Transformer架构核心是注意力机制和多头注意力 通过基础模块堆叠形成Encoder和Decoder [11][13] - Token化采用BPE、Word-Piece等方法 通过合并高频字符实现压缩 [9][13] - 位置编码使用正弦和余弦函数 使模型记住词序且位置偏移量与当前位置呈线性关系 [9][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的广为认知的技术 为多模态大模型奠定基础 [18] - 视觉Transformer扩展了Transformer的基本概念 成为多模态模型重要组成部分 [43] - LLAVA等模型进一步推进了视觉语言模型的发展 [43] 课程内容体系设计 - 第一章介绍端到端算法发展历史、范式优缺点及学术界工业界动态 [36] - 第二章重点讲解大语言模型、BEV感知、扩散模型、强化学习等背景知识 [37][43] - 第三章分析二段式端到端 涵盖经典算法PLUTO、CVPR'25的CarPlanner和最新Plan-R1 [38] - 第四章深入一段式端到端子领域:基于感知的UniAD、基于世界模型的Drive-OccWorld、基于扩散模型的DiffusionDrive及基于VLA的ORION [39][41][44][46] - 第五章设置RLHF微调大作业 实现从理论到实践的完整闭环 [48] 技术人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K-15薪 要求3-5年经验硕士学历 [29] - VLA/VLM/LLM算法工程师薪资40-70K-15薪 不限经验但要求深度学习机器学习背景 [29] - VIA模型量化部署工程师薪资40-60K-15薪 要求1-3年经验及模型加速技能 [29] 课程特色与优势 - 采用Just-in-Time Learning理念 通过通俗语言和案例快速掌握核心技术栈 [33] - 帮助学员梳理研究发展脉络 形成自己的研究体系和工作经验 [34] - 配备实战环节包括Diffusion Planner和ORION开源推理评测模块 [44][46] - 学员结课后可达1年左右端到端自动驾驶算法工程师水平 [53] 讲师资质与课程安排 - 讲师Jason为C9本科+QS50 PHD 发表CCF-A论文2篇 现任TOP主机厂算法专家 [24][49] - 课程8月15日开课 预计三个月结课 采用离线视频教学+vip群答疑模式 [52] - 章节解锁时间安排:第一章8月01日、第二章8月15日、第三章8月30日、第四章9月15日、第五章10月30日 [53]
自动驾驶转具身智能有哪些切入点?
自动驾驶之心· 2025-08-25 07:32
算法技术延续性 - 具身智能领域基本延续机器人和自动驾驶的算法 包括训练与微调方式以及大模型技术[1] - 具体任务存在差异 主要体现在数据采集方式以及重执行硬件与结构方面[1] 技术研究方向 - 主要技术方向涵盖VLA(视觉语言行动) VLN(视觉语言导航)和Diffusion Policy(扩散策略)[1] - 涉及强化学习 机械臂抓取 位姿估计和机器人仿真技术[1] - 包含多模态大模型 芯片部署 sim2real(仿真到现实)以及机器人硬件结构研究[1] 行业生态建设 - 建立具身智能全栈学习社区 持续分享算法与软硬件方案[1] - 日常更新行业动态与招聘信息 形成技术交流与人才发展平台[1]
超越一众SOTA!华为MoVieDrive:自动驾驶环视多模态场景生成最新世界模型~
自动驾驶之心· 2025-08-25 07:32
文章核心观点 - 华为诺亚和多伦多大学提出MoVieDrive算法 实现自动驾驶环视多模态场景生成 超越CogVideoX等SOTA方法[2][7] - 该方法通过统一扩散Transformer模型生成多模态多视角驾驶场景视频 支持RGB视频、深度图和语义图等多种模态[3][7] - 在nuScenes数据集上实验显示 FVD指标达46.8 比CogVideoX+SyntheOcc提升22% 且在3D目标检测mAP(22.7)和BEV分割mIoU(35.8)上均达到最优[30][31][32] 技术方法创新 - 构建模态共享组件(时间层+多视角时空块)和模态特定组件(跨模态交互层)的统一架构 实现多模态联合生成[7][23][24] - 采用多样化条件输入:文本条件(整体场景指导)、参考条件(未来预测)和布局条件(细粒度控制)[7][19] - 使用统一布局编码器融合框图/道路图/占据图等条件输入 替代多个独立编码器[19][20][40] 性能表现 - 视频保真度FVD达46.8 优于DriveDreamer(340.8)、MagicDrive(217.9)和CogVideoX+SyntheOcc(60.4)[30][31] - 深度图质量AbsRel为0.110 语义图mIoU达37.5 均显著优于对比方法[31][33][34] - 多模态生成机制验证:统一生成(RGB+深度+语义)相比分离模型方案性能更优[34][35] 实验设置 - 基于nuScenes数据集 含700训练/150验证视频 使用6相机49帧512×256分辨率配置[28][29] - 评估指标包括FVD(视频保真度)、mAP(3D检测)、mIoU(BEV分割)、AbsRel(深度误差)[28][31] - 模型在CogVideoX(v1.1-2B)和SyntheOcc基础上构建 冻结VAE和T5编码器 训练学习率2e-4[29] 应用价值 - 可生成现实难收集的长尾场景 提升自动驾驶系统可靠性评估能力[5][42] - 支持扩展法线图/光流图等模态 促进整体城市场景理解[26][42] - 为闭环仿真提供数据合成方案 但实际部署仍需进一步研究[42]
7DGS 炸场:一秒点燃动态世界!真实感实时渲染首次“七维全开”
自动驾驶之心· 2025-08-24 00:03
核心技术创新 - 提出7D高斯溅射(7DGS)框架,通过联合建模空间(3D)、时间(1D)和视角方向(3D)实现动态场景的高保真实时渲染 [3][10][17] - 核心突破在于统一表征7维高斯,自然捕捉几何、动态与视角相关外观的相互依赖性,例如移动镜面高光和时间变化的各向异性反射 [3][18][24] - 引入自适应高斯细化技术,通过轻量级神经网络动态调整高斯参数,提升对非刚性形变和复杂动态行为的建模精度 [32][35][36] 性能优势 - 在7DGS-PBR数据集上,PSNR指标最高提升7.36 dB(heart1场景:35.48 vs 27.30),同时保持401 FPS的实时渲染速度 [10][40][44] - 高斯点数显著减少,例如dust场景从357,744点优化至11,253点,压缩率达96.9% [40] - 在Technicolor野外数据集上,PSNR达到33.58,优于4DGS的33.25,且训练时间从358.9分钟缩短至112.1分钟 [40][43] 方法架构 - 采用条件切片机制,将7D高斯投影为兼容现有渲染流程的3D高斯,确保实时性能与保真度平衡 [23][26][27] - 通过球谐函数建模视角相关颜色,结合时间调制因子(f_temp)和方向调制因子(f_dir)动态调整不透明度 [8][28][30] - 优化流程继承3DGS的自适应致密化框架,通过克隆与分裂操作实现跨时空角度域的全面覆盖 [37][38] 应用场景 - 支持虚拟现实、增强现实和数字孪生应用,适用于动态心跳可视化、云层日照过渡等复杂场景 [2][10][41] - 在自动驾驶领域潜在应用于动态环境建模,技术栈涵盖BEV感知、多传感器融合和世界模型 [45][46]
某新势力智驾团队最后一位留守高管已于近日离职
自动驾驶之心· 2025-08-24 00:03
核心高管离职事件 - 某头部新势力车企智能驾驶量产研发负责人W于本周五离职 原为团队"三驾马车"核心架构中最后留守的高管 [1] - 该负责人曾领导近250人团队进行封闭开发 为2024年智驾"跨越式超车"立下汗马功劳 [1] - 智驾团队2023年已进行一轮大规模人员优化 W带领的研发团队是受影响最大的部门 [1] 团队架构与人才变动 - 2024年底智驾团队形成"三驾马车"架构:W负责量产研发 另两人分别负责端到端模型算法落地和世界模型技术预研 [2] - 另两位高管已于2024年上半年陆续离职 目前三位核心高管均已离开 [2] - 2024年智驾团队出现大规模离职 部分团队流失率超过50% [1] - 公司被迫启动全员竞业协议 甚至要求入职一两年的校招生签署 [1] 技术战略与行业影响 - 公司采用激进技术策略 两年内扩招千余人团队 不计成本推进端到端量产 [1] - 量产团队人才成为国内智驾企业重点挖掘对象 [1] - 技术路线逐渐收敛 行业从价格战驱动转向资源复用降低成本 [3][4] - 核心人才流动可能带来技术赶超新契机 但工程体系和文化积累才是真正壁垒 [3] 行业整体动态 - 小鹏智驾团队自2023年8月吴新宙离职后 多名老将相继离开 [3] - 蔚来智驾团队也经历多位技术骨干离职 [3] - 国内新势力智驾团队均经历了一次迭代更新周期 [3] 业务进展与挑战 - 公司近期将推送新范式智驾版本 对新款车型销量有重大影响 [2] - 高管连续离职对研发进度、团队稳定性和下半年销量冲刺造成冲击 [2]
推荐一个大模型AI私房菜!
自动驾驶之心· 2025-08-24 00:03
技术社区定位 - 平台专注于大模型RAG AI Agent 多模态大模型及部署推理优化等方向技术内容 [1] - 社区目标为构建国内最大规模大模型技术社群 持续输送行业人才与产业学术信息 [1] - 定位为培养未来技术领袖的高质量内容社区 [2] 技术覆盖方向 - 多模态大模型技术涵盖预训练 微调 强化学习三大核心领域 [1] - 重点布局大模型部署推理优化等产业化关键技术环节 [1] - 技术热点集中在自动驾驶VLA引发的行业关注度提升 [1] 社群发展策略 - 通过知识星球形式快速搭建技术模块 吸引同行者加入 [1] - 采用公众号与星球双平台运营模式 实现内容与社群联动 [1] - 聚焦大模型技术爱好者群体 形成垂直领域技术生态 [1]
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-24 00:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]