Workflow
自动驾驶之心
icon
搜索文档
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 22:06
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位行业专家加入 [2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环体系 [2] - 社区内容涵盖最新技术动态、技术讨论、入门问答及行业求职分享,重点关注具身智能转型、自动驾驶技术趋势及大模型融合等前沿议题 [2] 技术发展方向 - 2025年技术基调确定为VLA(视觉语言行动)端到端2.0体系,涉及视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真等前沿技术栈 [6] - 技术迭代周期持续缩短,需专业社区持续跟踪学术界与工业界的技术演进 [10] - 重点研究方向包括BEV感知、Occupancy网络、世界模型、扩散模型等,其中视觉大语言模型在自动驾驶中的应用成为新热点 [11][55] 知识星球运营 - 国内最大自动驾驶技术社区,成员近4000人,汇集100+行业专家,总结30+技术学习路线 [11] - 提供四大核心板块:学术进展追踪、专家答疑、课程优惠及求职咨询,包含近5000份干货内容并每日更新 [14] - 每周组织1-2场顶会作者或企业团队直播,全年计划100场,聚焦VLA、大模型等前沿主题 [18][19] 数据集与模型 - 汇总主流自动驾驶数据集如nuScenes(20万帧多模态数据)、Waymo Open Dataset(12万场景)等,涵盖2D/3D检测、语义分割等任务 [31] - 视觉大语言模型预训练使用LAION-5B(50亿图文对)、CLIP(4亿图文对)等超大规模数据集 [26] - 扩散模型在3D视觉、视频生成领域形成完整技术体系,相关论文年增长率超过200% [43][44] 行业应用案例 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升多模态交互能力 [33] - 自动驾驶系统集成VLM进行行人检测、开放词汇3D分割等任务,如VLPD模型通过自监督提升检测精度34% [34] - 规划控制领域采用GPT-Driver等大模型实现轨迹预测,DRIVEVLM系统将规划误差降低25% [35][36] 人才生态 - 社区成员来自地平线、蔚来、英伟达等头部企业及清华、ETH等顶尖院校,形成产学研协同网络 [114] - 求职板块覆盖TensorRT部署、多传感器标定等实战问题,整理BEV感知等方向高频面试题100+ [71][72] - 职业发展建议显示:传统3D检测岗位需求下降,端到端驾驶、数据闭环等方向人才缺口扩大 [101]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
2026届自动驾驶算法岗招聘,趋势变化有些大。。。
自动驾驶之心· 2025-06-19 18:47
行业招聘趋势 - 26届自动驾驶和互联网招聘行情预计整体向好 有望追平24届水平 多家公司如小米 比亚迪 小鹏已恢复大规模招聘 [2] - 提前批招聘效力显著减弱 除顶级天才外 多数offer集中在7月底至11月底发放 11月底至过年为补录阶段 [2] - 大公司更倾向实习转正招聘 暑期实习重要性凸显 可转正实习周期从2月底持续至10月底 实习转正薪酬通常低于直接秋招录用 [2] 求职时间节点 - 暑期实习招聘集中在2-7月 实习期5-8月 有效实习需≥2个月 时间越长优势越大 [4] - 秋招正式批为7-10月 简历投递黄金期为8月中下旬 避开早期竞争可提升成功率 [4] 薪酬与岗位现状 - 校招博士最高总包90万 硕士65万 社招5年经验者可达180万 [5] - 新兴岗位需求明确 大模型岗 端到端算法岗 自动标注与数据闭环岗需提前了解职责 [5] 求职能力要求 - 社招重点考察项目细节解决能力 技术深度及行业认知 [5] - 校招核心在于面试经验积累 需针对性规划学习路线 结合学校与实习经历 [5] 课程内容体系 - 行业分析模块覆盖自驾技术格局 公司业务 主机厂与自驾公司差异 人才需求 [6] - 面试技巧包含刷题方法(高频题 手撕代码) 简历优化(项目贡献突出) 压力面试应对 [6] - 高阶模块涉及技术格局面试策略 谈薪技巧(股权/现金选择) 岗位职责解析 [6][7][8] 课程资源 - 讲师团队含头部公司技术leader 面霸 算法工程师 覆盖校招/社招/转行群体 [15][16] - 课程周期4.30-6.30 含离线视频与VIP群答疑 适配秋招时间线 [18]
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 18:47
多模态推理模型的核心问题 - 推理能力增强会导致视觉注意力下降,产生更多幻觉,表现为过度依赖语言常识而忽略视觉证据 [3][5][14] - 推理链长度与幻觉率呈正相关,模型在长推理时对图像token关注度暴跌,转向指令词 [19][21][23] - 70亿参数模型比30亿参数模型表现更好,RH-AUC分数更高(0.63 vs 0.53),显示规模效应缓解幻觉 [34][39] 训练方法对比 - 纯强化学习(RL-only)模型比监督微调+强化学习(SFT+RL)模型RH-AUC更高(如Ocean-R1-7B 0.63 vs OpenVLThinker 0.54),因后者易陷入机械模仿 [34][35][40] - SFT+RL训练导致僵化推理路径,例如将"系鞋带动作"误判为"已完成",而RL-only模型更关注实时视觉细节 [11][35] - 数据质量优于数量,分阶段投喂专精数据(如Ocean-R1)比混合数据(R1-OneVision)效果更佳 [40][42] 评估体系创新 - RH-Bench基准包含1000道题(500推理+500感知),涵盖数学、视觉判断等任务,经人工审核确保严谨性 [30][32] - RH-AUC指标动态评估推理长度与准确率关系,通过曲线下面积量化平衡能力,解决传统静态指标局限 [24][31][33] - 任务类型决定最佳推理长度:数学题需400-600Token,视觉题需100-300Token,显示灵活策略必要性 [28][31] 注意力机制缺陷 - 推理模型视觉注意力热力图显示"散光"现象,关注区域分散且偏向指令词,而非推理模型则聚焦关键物体 [18][21] - 过度推理时图像token关注度下降50%以上,语言先验依赖度显著上升,导致视觉误判 [21][22][23] - 两种典型幻觉模式:视觉误识别型(漏看细节)和推理偏倚型(语言常识覆盖视觉证据) [13][14] 未来技术方向 - 需验证结论在LLaVA、Flamingo等架构的泛化性,当前实验仅基于Qwen2.5-VL backbone [43] - 潜在状态控制等动态长度调节技术可优化推理-感知平衡,但需结合任务类型定制策略 [24][27] - 训练数据因果性实验待开展,现有结论为观察性分析,未控制变量 [43][44]
高质量3DGS表示!𝒳-Scene:新颖的大规模驾驶场景生成框架~
自动驾驶之心· 2025-06-19 18:47
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 点击下方 卡片 ,关注" 3D视觉之心 "公众号 第一时间获取 3D视觉干货 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 大规模场景生成的挑战 近年来,生成式人工智能的进步对自动驾驶产生了深远影响,其中扩散模型成为数据合成和驾驶仿真的关键工具。 一些方法将扩散模型作为数据生成机器,用于生成高保真的驾驶视频或多模态的合成数据,以增强感知任务,并生 成如车辆插队等关键但罕见的情况,从而丰富规划数据。除此之外,还有一些方法将扩散模型作为世界模型,用于 预测未来的驾驶状态,从而实现端到端的规划和闭环仿真。这些研究主要强调通过时间递归生成长期视频,鼓励扩 散模型输出时序一致的视频序列,以服务于后续任务。 然而,具备空间扩展能力的大规模场景生成仍是一个新兴但尚未被充分研究的方向,其目标是构建可用于任意驾驶 仿真的广阔而沉浸式的三维环境。一些开创性工作已经探索了大规模的三维驾驶场景生成。例如,有的方法利用扩 散 ...
CVPR'25端到端冠军方案!GTRS:可泛化多模态端到端轨迹规划(英伟达&复旦)
自动驾驶之心· 2025-06-19 18:47
端到端自动驾驶挑战赛背景 - NAVSIM v2端到端自动驾驶挑战赛是CVPR 2025 Autonomous Grand Challenge的重要赛事之一,重点评估模型在复杂驾驶情境下的决策鲁棒性与安全性[1] - 测试集包含困难驾驶场景及3D渲染延伸场景,考验模型泛化能力[1] 团队与比赛成绩 - NVIDIA与复旦大学组成的团队获得NAVSIM v2挑战赛冠军[2] - 最终方案EPDMS指标达到49.4,创下当前最先进规划表现[14] 技术方案演进 - 从模仿学习扩散模型转向基于规则的知识蒸馏范式Hydra-MDP[2][4] - Hydra-MDP框架使用多模式轨迹候选与环境交互奖励信号,提升复杂场景决策安全性[4] - 新提出的GTRS框架融合动态生成与静态词表轨迹评分策略[5] GTRS框架核心技术 - 包含三大核心组件:扩散模型轨迹生成器、超密集轨迹词表、传感器视角扰动与精细化评分模块[5] - 动态轨迹生成弥补静态词表多样性不足,带来EPDMS指标+1.1%提升[7] - GTRS-Dense模型采用随机Dropout策略,实现EPDMS+1.4%性能提升[10] - GTRS-Aug模型引入传感器增强与轨迹精细化评分,EPDMS提升+2.8%[12] 模型集成策略 - 融合扩散策略生成的动态轨迹与静态词表轨迹[14] - 联合使用GTRS-Dense和GTRS-Aug等多评分器进行轨迹评估[14] - 集成方案充分发挥各模型在泛化性和鲁棒性方面的互补优势[14]
调研了一圈,还是更想做自动驾驶!
自动驾驶之心· 2025-06-19 14:30
产品发布与销售 - 黑武士系列001自动驾驶教研小车正式开售,原价36999元,现下单赠送3门课程(模型部署+点云3D检测+多传感器融合)[1] - 当前订单已排满,5台及以上批量采购可享优惠,主要面向高校和研究院所[2] 产品定位与功能 - 定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等全栈功能[5] - 支持二次开发与改装,预留多传感器接口(相机、毫米波雷达等)[6] - 适用场景覆盖本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等[9] 硬件配置 - 搭载Mid 360 3D激光雷达(FOV 360°×59°,测距0.1-40m)、镭神智能2D激光雷达(25m范围)、奥比中光深度相机(0.15-5m测距)[23][34] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器与阿克曼底盘[23] - 车体尺寸620×400×320mm,自重30kg,续航>4小时,最大速度2m/s[27][28] 软件系统 - 基于ROS框架,支持C++/Python开发,提供一键启动功能[30] - 功能覆盖2D/3D目标检测、多模态SLAM(视觉/激光/惯性)、导航避障等32项算法[32] - 深度相机驱动可发布RGB图像(1280×800@30fps)和深度数据(精度≤2%@2m)[48] 测试验证 - 完成室内外全场景测试,包括地库建图(2D/3D激光)、夜间行驶、上下坡等工况[8][11][13][15][17][19][21][23] - 点云处理能力支持动态避障,IMU采样率达100Hz[34] 售后服务 - 提供1年非人为损坏保修,支持代码修改导致的故障维修[55] - 批量采购可通过指定渠道咨询[55]
自动驾驶中常提的VLA是个啥?
自动驾驶之心· 2025-06-18 21:37
核心观点 - VLA(视觉-语言-动作模型)通过端到端融合视觉感知、语言理解与动作决策,实现从环境观察到控制指令输出的闭环映射,提升自动驾驶系统的泛化能力与场景适应性[2] - VLA模型简化了传统自动驾驶模块化架构,通过统一神经网络学习最优控制策略,减少误差累积和规则设计复杂性[4] - 行业认为VLA将推动自动驾驶进入"端到端2.0"时代,成为下一代技术基石[15][16] 技术架构 - **视觉编码器**:采用CNN或Vision Transformer提取图像/点云特征,部分引入三维空间编码器增强场景理解[8][9] - **语言编码器**:接入预训练语言模型,理解自然语言指令(如"第二个红绿灯右转")和安全策略(如"行人出现时减速至5公里/小时以下")[11] - **跨模态融合层**:使用自注意力机制或图神经网络实现视觉与语言特征的对齐融合[11] - **动作解码器**:基于强化学习直接预测转向角度、加速度等连续控制信号[11] 行业应用 - DeepMind的RT-2模型展示了VLA在机器人控制的潜力[13] - 元戎启行推出"端到端2.0版本"VLA模型,CEO称其将推动城区智驾达到"好用"状态[13] - 智平方GOVLA模型在机器人领域实现全身协同与长程推理,为智能驾驶提供参考[13] 技术优势 - 场景泛化能力:通过大规模多模态数据学习,在复杂路口、弱光环境等场景表现更优[12] - 上下文推理:融入语言理解后可根据指令动态调整驾驶策略[12] - 系统简化:省去传统方案中的规则引擎和多阶段优化,提高数据利用效率[4][11] 发展挑战 - 可解释性不足:"黑盒子"特性导致边缘场景决策失误难以排查[13] - 数据需求:需构建覆盖多种交通场景的高保真仿真环境和海量训练数据[13] - 计算瓶颈:实时性优化难度高,商用化面临算力资源消耗大的问题[13] 未来方向 - 结合可解释性模块或Diffusion模型优化决策透明度与轨迹平滑性[15] - 与传统规则引擎或MPC组成混合架构提高安全冗余[15] - 扩展至车队协同、远程遥控及人机交互等场景[15]
AI Day直播!清华&吉利Challenger框架:自动驾驶对抗场景高效生成~
自动驾驶之心· 2025-06-18 21:37
本文提出了Challenger框架,首次实现了物理合理且视觉逼真的对抗性驾驶视频生成。其突破性在于通过两项 关键技术解决了轨迹空间优化与高保真传感器数据生成的联合挑战: 该框架在nuScenes数据集上生成多样化对抗场景(如强行切入、盲区超车、跟车过近),并利用 MagicDriveDiT渲染器输出多视角逼真视频。实验表明,所生成场景显著提升主流端到端自动驾驶模型(如 UniAD、VAD)的碰撞率(最高达26倍),且发现的对抗行为具有跨模型可迁移性,揭示了自动驾驶系统的共 性脆弱性。 自 动 驾 驶 之 心 论论论论论论论论文文文文文文文文文文文文文文文文文文辅辅辅辅辅辅辅辅导导导导导导导导来来来来来来来来啦啦啦啦啦啦啦啦 知知知知知知知知识识识识识识识识星星星星星星星星球球球球球球球球交交交交交交交交流流流流流流流流社社社社社社社社区区区区区区区区 >>直播和内容获取转到 → 自动驾驶之心知识星球 近4000人的交流社区,近300+自动驾驶公司与科研结构加入! 涉及30+自动驾驶技术栈学习路线,从0到一 带你入门 自动驾驶感知(大模型、端到端自动驾驶 、 世界模型 、 仿真闭环 、 3D检测 、 车道线 、 ...