自动驾驶之心
搜索文档
同济大学最新!GEMINUS:端到端MoE实现闭环新SOTA,性能大涨近8%~
自动驾驶之心· 2025-07-22 20:46
核心观点 - GEMINUS是一种基于专家混合(MoE)的端到端自动驾驶框架,通过双感知路由器动态激活全局专家和场景自适应专家,在多样化场景下实现自适应与鲁棒性兼具的性能 [1] - 该框架在Bench2Drive闭环基准测试中超越现有方法,驾驶评分提升7.67%,成功率提升22.06%,MultiAbility-Mean提升19.41% [2][49] - 仅使用单目视觉输入即达到SOTA水平,驾驶评分提升9.17%,成功率提升25.77%,开环平均L2误差降低5.88% [37] 技术架构 框架设计 - 包含全局专家(整体数据集训练)、场景自适应专家组(场景子集训练)和双感知路由器(场景级特征+路由不确定性) [1] - 路由器采用硬分配机制,当不确定性低于阈值时选择场景专家,高于阈值时启用全局专家 [18] - 场景分类包括汇入、超车、紧急制动、让行和交通标志5类 [24] 关键组件 - 特征编码器采用ResNet34处理图像输入,测量编码器处理车辆状态信息 [20] - 轨迹规划器生成未来航路点序列,通过PID控制器输出控制信号 [17][20] - 损失函数整合轨迹模仿、特征对齐、价值对齐等多目标优化 [29][31][33] 性能表现 基准测试 - 驾驶评分65.39,成功率37.73%,MultiAbility-Mean 37.77%,均显著优于单专家基线 [41] - 超车场景准确率91.35%,交通标志场景90.45%,但让行场景仅2.87% [42][46] - 全局专家利用率6.29%,在模糊场景中发挥稳定作用 [47][48] 消融实验 - 纯MoE架构直接应用会导致性能下降,验证定制化设计的必要性 [40] - 场景感知路由使驾驶评分提升2.72%,成功率提升4.40% [40] - 不确定性路由+全局专家带来额外4.83%驾驶评分和22.06%成功率提升 [40] 行业应用 技术突破 - 首次将MoE架构成功应用于端到端自动驾驶,解决模态平均问题 [6][12] - 单目视觉性能超越多相机方案,降低硬件成本 [37][38] - 路由机制可解释性强,专家利用率反映场景特征明显程度 [47] 发展前景 - 可扩展至多相机输入提升场景感知能力 [50] - 探索Mixture-of-LoRA架构优化参数效率 [50] - 在长尾场景处理和安全冗余方面具备迭代潜力 [11][50]
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术研究 核心观点 - 提出DriveMRP框架,通过合成高风险运动数据(DriveMRP-10K)和视觉提示方案,显著提升视觉语言模型(VLM)在自动驾驶场景中的风险预测能力,事故识别准确率从27%提升至88% [1][7][8] - 创新性地将运动路点投影为视觉表示,结合BEV全局上下文和链条推理机制,解决传统VLM在模态差距和可解释性上的局限 [6][13] 现有方法局限 - 规则基方法依赖外部世界模型和预定义规则,对感知误差敏感且泛化性差 [2] - VLM基方法直接输入轨迹坐标文本,因模态差距导致空间关系理解不足 [4] 创新方案 数据集构建 - DriveMRP-10K包含10,000个高风险场景,通过多项式模拟生成三类风险轨迹(ego车辆行为/车辆交互/环境约束),结合GPT-4o生成多模态标注数据 [5] - 采用四阶段流程:高风险轨迹合成→自动标注→人工质检→文本生成,确保数据质量 [5] 模型架构 - DriveMRP-Agent以BEV布局、场景图像和运动路点为输入,通过LoRA微调Qwen2.5VL-7B模型 [6] - 关键组件:视觉提示方案(解决模态差距)、链条推理机制(场景理解→运动分析→风险预测)、CoT训练策略 [6] 性能表现 基准测试 - 在DriveMRP-10K上,ROUGE-1-F1达69.08,风险预测准确率88.03%(基线27.13%),F1分数89.12 [7][8] - 真实世界数据零样本评估中,准确率从29.42%提升至68.50% [9] 数据集有效性 - 微调后Llava-1.5-7B的F1分数从0.85提升至29.99,Qwen2.5-VL-7B的F1达89.12 [11] 组件分析 - 完整模型(视觉提示+链条推理+BEV)性能最优,F1分数89.12;移除BEV后降至83.47 [13] 技术应用 - 方案可增强现有VLM的"即插即用"能力,适用于端到端自动驾驶、BEV感知、轨迹预测等技术方向 [15][17]
聊聊自动驾驶闭环仿真和3DGS!
自动驾驶之心· 2025-07-22 20:46
神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆,这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示,利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性,例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示,将场景建模为基于点的背景和前景物体,每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观,前景点使用动态球面谐波模型,实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式,便于组合单独模型,支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点,每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量,避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观,并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云,点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似,但位置、旋转和外观模型不同,在物体局部坐标系中定义[11] - 引入4D球谐函数模型,用傅里叶变换系数替代SH系数,将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题,避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化,通过投影到图像平面获取颜色[17] - 对于物体模型,收集3D边界框内的聚合点并转换到局部坐标系,点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样,过滤不可见点,结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向,包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛,涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展,但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析,以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业,以及升学和求职经验分享[45][47]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]
行车报漏检了,锅丢给了自动标注。。。
自动驾驶之心· 2025-07-22 15:28
占用网络(OCC)技术 - 占用网络将空间划分成小网格预测每个网格的占用情况 用于解决异形障碍物检测问题 [3] - 核心功能包括建模异形障碍物(如倒地树木 不规则车辆)和路面等背景元素 [4] - 自2022年特斯拉宣布Occupancy Network上车后 已成为纯视觉智驾方案标配 [2] 自动标注技术难点 - 时空一致性要求极高 需在连续帧中精准追踪动态目标运动轨迹 [9] - 多模态数据融合复杂 需同步激光雷达 相机 雷达等多源传感器数据 [9] - 动态场景泛化难度大 交通参与者行为不确定性增加标注模型挑战 [9] - 标注效率与成本矛盾 高精度依赖人工校验但海量数据导致周期长成本高 [9] - 量产场景泛化要求高 需应对不同城市 道路 天气等多样化数据 [9] 自动标注解决方案 - 生成OCC训练真值后 使用计算量更大模型训练生成伪标签 [8] - 质量把控方案包括:2D-3D目标检测一致性 与端侧模型比较 人工标注介入修改后质检 [8] - 自动化标注数据可用于车端模型训练和云端大模型迭代优化 [8] 4D自动标注课程内容 - 课程涵盖动静态 OCC和端到端自动化标注全流程 [10] - 包括动态障碍物检测跟踪 激光视觉SLAM重建 静态元素标注等核心模块 [10][13][14][16] - 重点讲解通用障碍物OCC标注 包括基于lidar和视觉的真值生成方案 [17][18] - 端到端真值生成章节包含动态障碍物 静态元素 可行驶区域等全流程打通 [19] - 数据闭环专题分享行业主流公司架构 痛点及面试准备等实战经验 [21] 行业技术发展 - 占用网络对训练数据标注需求旺盛 尤其需要更昂贵的点云标注 [2] - 业内正推进OCC自动化标注以快速迭代模型泛化性能 [2] - 4D自动标注(3D空间+时间维度)是自动驾驶数据闭环的算法核心 [11]
自动驾驶之心三周年优惠就要结束啦,最后一天...
自动驾驶之心· 2025-07-22 15:28
公司三周年发展回顾 - 三周年是重要里程碑 自动驾驶领域技术迭代加速 英伟达Thor芯片算力达2000 TOPS 较Orin的254 TOPS实现大幅提升[1] - 已打造四大IP矩阵:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心 覆盖知识星球、公众号、视频号等多平台 其中具身智能方向表现突出[1] - 业务模式从纯线上教育拓展至硬件教具、线下培训、求职招聘等全栈服务 在杭州设立线下办公室并引入新团队成员[1] 创业理念与战略 - 反对短期功利主义 强调长期价值创造 通过平台影响力驱动行业发展[2] - 坚持"重全局 沿途下蛋"策略 既投入长期价值项目 也实现阶段性商业化目标[4] - 团队核心优势在于执行力、复盘能力和持续创新 认为创新是保持行业领先的关键[7] 业务运营反思 - 发现课程质量管控问题后 采取重录补录措施 建立1v1学员沟通机制[6] - 强调"逆着人性做事"原则 拒绝内容注水 通过深度思考保证输出质量[6][7] - 行业存在普遍模仿现象 但坚持创新才能持续获得先发优势[7] 未来发展规划 - 启动多领域研发投入 推动公司从教育向科技企业转型[9] - 计划2025年下半年完成教育体系搭建 进入稳定运营期[9] - 持续降低AI学习门槛 实现"让AI教育走进每个有需求同学"的目标[10] 三周年促销活动 - 推出自动驾驶全系列课程8折优惠 涵盖感知、定位等15个技术方向[12] - 知识星球新人加入享6折 老学员续费5折[14]
近日某头部自驾公司数据算法核心负责人离职。。。
自动驾驶之心· 2025-07-22 10:18
组织架构调整 - 头部自驾公司智能驾驶团队进行重要组织架构调整,原数据算法核心负责人离职,该负责人曾主导完成千万Clips数据交付并搭建两代量产及端到端方案的云端数据闭环链路 [1] - 公司引入多位行业顶尖专家强化团队技术实力,彰显在智能驾驶领域"不惜代价"投入的决心 [1] - 调整后智能驾驶团队分为三大核心板块:端到端辅助驾驶、L3级辅助驾驶和VLA预研,由业内顶级专家带队 [4] 技术研发与数据成果 - 公司近期交付1000万Clips版端到端辅助驾驶系统成为行业标杆,通过海量高质量数据训练显著提升实际驾驶体验 [5][6] - 最新车型全系标配行业顶配感知套件,包括高性能计算芯片、激光雷达及多颗高清摄像头 [7] - 1000万Clips系统已通过OTA推送至用户端,后续将结合大模型能力持续迭代 [7] 性能提升与数据质量保障 - 纵向舒适性提升57%,拥堵路况下加减速更平顺 [10] - 绕行成功率提高67%,窄路会车、占道绕行更从容 [10] - 路口通过率优化23%,复杂中国路况适应性更强 [10] - 通过专业司机团队(超20项评分标准)、智能评价系统(多模态大模型)和场景定向特训("错题本"机制)三大技术保障数据质量 [10] 长期投入规划 - 公司宣布智能驾驶领域首期投入规模巨大,专属团队超千人,测试车辆达数百台 [9] - 联合顶尖AI实验室与高校开展前沿技术研究,加速技术突破 [9] - 强调辅助驾驶技术仍需用户正确理解与使用,未来将持续以"用户体验为核心"推动创新 [11]
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 10:18
视觉-语言-动作(VLA)模型综述 - 核心观点:VLA模型通过整合视觉感知、语言理解和机器人控制,正在推动机器人技术的变革性发展[3][7] - 研究范围:全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势:从端到端框架向模块化架构演进,强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构:基于Transformer的视觉和语言骨干网络,通过跨模态注意力机制融合[9] - 视觉编码器:CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器:LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器:扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进:从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集:Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准:建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台:AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异:从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势:强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向:操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型:RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线:分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战:分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制:任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距:物理准确性、视觉真实性和语言接地API等亟待改进[44][45]
字节跳动2026校招来了!大模型算法、多模态、CV类有较多坑位
自动驾驶之心· 2025-07-22 09:47
字节跳动校招计划 - 筋斗云人才计划面向2022年9月至2026年8月毕业的博士生(全职)及2025年9月及以后毕业的在校博士生(实习),放宽了2022届博士生的招聘限制,涵盖大模型应用、搜索/推荐/广告、计算机体系结构等8大领域,支持学术研究与产业落地结合[2] - Top Seed计划针对2026届应届博士生及研究型实习生,聚焦大模型核心技术(如LLM、多模态生成、机器学习算法),提供高待遇与算力支持,目标培养顶尖人才[3] AutoRobo知识星球服务内容 - 社区定位为自动驾驶、具身智能、机器人方向求职交流平台,成员近1000人,覆盖社招(如地平线、小米汽车、华为)及2024/2025届秋招学生[8] - 提供面试题目汇总(如毫米波视觉融合一百问、BEV感知一百问)、行业研报(世界机器人报告、人形机器人量产研报)、面经(滴滴出行、英伟达等公司案例)及谈薪技巧[12][13][18][20] - 每日更新校招/社招/实习岗位信息,涉及算法、开发、产品等方向,同步公司第一手招聘资源[9] 行业研究与求职资源 - 汇总专业书籍与技能树(机器人、自动驾驶、AI类),包含转行经验、面试官建议及岗位复盘内容[23][25] - 提供宏观行业分析(技术路线、上下游产业)及实战资料(如多传感器标定技巧、Diffusion Policy面试题),帮助求职者深入理解领域发展[17][18]
为什么不推荐研究生搞强化学习研究?
自动驾驶之心· 2025-07-21 19:18
原文链接: https://www.zhihu.com/question/1900927726795334198 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨 询 写在前面 我已经很久没答学术上的问题了,因为最近审的申请书一半都是强化学习相关的?所以知乎老给我推强化 学习的各种东西……我就来简单的谈一谈强化学习吧。 强化学习如果说你要是 读到硕士研究生为止 ,哪怕你读的是清华北大的,最重要的基本功就是 调包 ,搞 清楚什么时候该调什么包就可以了,其次就是怎么排列组合,怎么缩小解空间,对一些算法只需要有个基 本的流程性了解就好了。 如果你读的是 博士 ,建议 换个方向 ,我觉得在现在的强化学习上雕花就是浪费时间和生命,当然你要是 以发很多papers,混个教职当然可以,就是你可能很久都做不出真正很好的工作来,混口饭吃也不注重这 个。 我对强化学习的感受就是 古老且原始 ,感觉就好像现在我还拿着一 ...