自动驾驶之心

搜索文档
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-30 07:32
自动驾驶技术中的强化学习应用 核心观点 - 强化学习在自动驾驶领域从机器人早期阶段已有应用,但受限于训练效率低和复杂度高,工业界普及度有限 随着AlphaGo、ChatGPT RLHF和DeepSeek-O1等技术的突破,强化学习在时序决策任务(如轨迹规划)中展现出潜力 [3][7] - 自动驾驶的强化学习需结合模仿学习、逆强化学习等技术,通过动态reward设计(安全性/舒适性指标)和闭环训练解决环境交互问题 [8][62] 技术范式分类 1 基础学习概念 - **监督式学习**:用于感知任务(目标检测),通过固定训练集优化模型输出与监督信号的均方误差 [5] - **模仿学习**:以专家动作为监督信号,扩展至短时序轨迹生成,是端到端自动驾驶的主流方法 [6] - **强化学习**:通过环境交互的延迟反馈(如轨迹规划中的碰撞避免)优化策略,依赖动态reward信号 [7] - **逆强化学习**:从专家数据中学习reward-model,解决自然语言或驾驶舒适性等难以定义的奖励问题 [8] 2 核心算法框架 - **值优化方法**:包括动态规划、蒙特卡洛(统计大数原理)、时序差分(SARSA/Q-Learning)及混合算法(GAE) [29][30][33][44] - **策略优化方法**: - **REINFORCE**:蒙特卡洛估计策略梯度 [50] - **Actor-Critic**:结合策略网络与价值函数拟合 [51] - **PPO**:通过clip函数简化TRPO的约束条件,提升训练稳定性 [57] - **GRPO**:DeepSeek提出的轻量化算法,利用在线group样本替代value-model [59] 自动驾驶场景关键技术 - **预训练**:策略网络与价值网络通过模仿学习初始化,提升训练收敛性 [60] - **概率建模**:自回归/Diffusion模型对action多步rollout,通过环境反馈优化策略 [61] - **闭环训练**:需建模多智能体博弈(他车动态响应),避免静态环境导致的策略偏差 [62] - **端到端融合**:结合NeRF/3DGS生成动态环境感知数据,实时更新传感器输入 [63] 行业应用趋势 - 技术社区活跃度显著提升,涉及大模型、VLA、BEV感知等30+技术栈,近4000人参与交流,300+企业与科研机构加入 [65]
自动驾驶Agent来了!DriveAgent-R1:智能思维和主动感知Agent(上海期智&理想)
自动驾驶之心· 2025-07-30 07:32
DriveAgent-R1核心创新 - 首创基于强化学习的混合思维架构,使智能体能在纯文本推理和工具辅助推理间自适应切换[12][14] - 引入主动感知机制,配备包含高分辨率视图获取、关键区域检查等功能的视觉工具箱[15][18] - 采用三阶段渐进式训练策略(DM-SFT→FCM-RL→AMS-RL),显著提升模型性能[16][19][24] - 在SUP-AD数据集上实现SOTA性能,首帧联合准确率达70.11%,超越Claude Sonnet 4等主流模型[12][26] 技术架构与性能 - 基于Qwen2.5-VL-3B模型构建,输入包含6路环视摄像头数据,输出8秒驾驶意图决策序列[11] - 创新MP-GRPO算法强化双模式能力,模式选择准确率达65.93%[24][28] - 工具使用使序列平均准确率提升15.9%,推理质量提升11.7%[26][27] - 消融实验显示完整训练策略使首帧准确率较基线提升44.8个百分点[28] 行业突破性 - 首次实现自动驾驶智能体的长时程决策能力(8秒连贯规划)[3][11] - 解决现有VLM短视决策(单步预测)和被动感知两大核心痛点[6][12] - 验证视觉工具对SOTA模型的普适增强效应(如Claude推理质量+26.1%)[26] - 建立首个评估体系量化安全性、舒适性等多维度表现[24]
课程+软件+硬件!你的第一款小车,自动驾驶全栈技术平台黑武士001
自动驾驶之心· 2025-07-30 07:32
产品概述 - 黑武士001是面向科研与教学场景的自动驾驶全栈解决方案,支持感知、定位、融合、导航等全功能平台,采用阿克曼底盘设计 [2] - 产品支持二次开发与传感器改装,预留相机、毫米波雷达等接口,适配室内外多场景测试需求 [3] 目标用户 - 本科生学习与竞赛 [5] - 研究生科研与就业项目 [5] - 高校实验室及职业培训机构教具 [5] 硬件配置 - **核心传感器**:Mid 360 3D激光雷达(FOV 360°×59°/测距40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m/精度≤2%) [18][28] - **主控系统**:Nvidia Orin NX 16G芯片,配备1080p显示器 [18] - **机械结构**:钣金件硬铝材质,车体尺寸620×400×320mm,自重30kg,最大载荷30kg [22] 性能参数 - 运动速度1.5m/s(可扩展至2m/s),续航时间>4小时(50W电池/24V供电) [22] - 轮毂伺服电机驱动,外径130mm,适应上下坡等复杂地形 [14][22] 软件功能 - **开发框架**:基于ROS、C++、Python,支持一键启动开发环境 [24] - **核心算法**:涵盖2D/3D SLAM、多传感器融合SLAM、点云处理、动态避障等25+功能模块 [25] - **深度相机驱动**:通过脚本调用Gemini2相机节点,输出RGB图像(1280×800@30fps)及深度数据 [39] 应用场景展示 - **建图能力**:室内地库2D/3D激光建图、室外大场景3D建图 [10][12][16] - **环境适应性**:夜间行驶、公园道路、动态目标检测(点云3D检测精度演示) [6][8][18] 售后服务 - 提供1年非人为损坏保修,支持硬件采购咨询与代码修改导致的故障维修 [47] 促销信息 - 首发价36999元,赠模型部署、点云3D检测、多传感器融合三门课程 [1]
更新了一些自驾求职的视频和面经......
自动驾驶之心· 2025-07-29 15:53
求职视频教程 - 提供小厂、大厂面试、秋招校招准备、公司选择等求职类视频课程 [1] - 包含大模型、自动标注、端到端等岗位的介绍和分析 [1] - 从行业、岗位和工作内容角度剖析如何选择最适合自己的方向 [2] 求职社区概况 - 专注于自动驾驶、机器人和大模型求职的社区,目前有近1000名成员 [5] - 成员包括社招和校招人员,涵盖自动驾驶与具身智能领域 [5] - 社区成员来自智元机器人、宇树科技、地平线、理想汽车、华为、小米汽车等知名公司 [5] 社区内容与服务 - 提供面试题目、面经、行业研报、谈薪技巧等求职资源 [5] - 分享算法、开发、产品等校招、社招、实习岗位信息 [6] - 汇总自动驾驶、具身智能方向的面试一百问 [8] 自动驾驶领域资源 - 提供毫米波视觉融合、3D/4D毫米波雷达量产、车道线检测算法等专业领域的一百问 [11] - 包含BEV感知、多传感器融合、轨迹预测、Occupancy感知等技术方向的一百问 [11] - 涵盖端到端自动驾驶、VLA、VLN视觉语言导航等前沿技术面试内容 [11] 行业研究报告 - 汇总领域研报帮助了解行业发展状态和前景 [14] - 包含世界机器人报告、中国具身智能创投报告等行业深度研究报告 [15] - 提供人形机器人量产与硬件、具身智能技术路线等专业研报 [15] 面试经验分享 - 整理社招、校招、实习等不同阶段的成功和失败面试经验 [17] - 包含滴滴出行、英伟达、上海AI Lab、美团、小米汽车等公司的算法岗位面经 [19] - 提供华为、理想汽车、小鹏汽车等企业的自动驾驶相关岗位面经 [20] 求职技巧与心得 - 分享面试算法岗基础技能树、转行经验等宏观建议 [24] - 提供谈薪技巧、HR面常见问题等实用求职指导 [24] - 汇总机器人、自驾、AI类相关专业基础书籍 [25]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
TUM最新!全面梳理自动驾驶基础模型:LLM/VLM/MLLM/扩散模型和世界模型一网打尽~
自动驾驶之心· 2025-07-29 08:52
自动驾驶基础模型综述 - 文章全面梳理了自动驾驶中LLM/VLM/MLLM/扩散模型和世界模型的最新工作,系统总结了相关数据集和BenchMark [1][2] - 基础模型在复杂驾驶场景合成与解读方面展现出强大潜力,可处理异构输入如自然语言、传感器数据等 [2][9] - 综述提出了统一分类体系,涵盖LLMs、VLMs、MLLMs、DMs和WMs在自动驾驶场景生成与分析中的应用 [2][14] 技术发展现状 - Waymo等公司已实现SAE四级自动驾驶商业化,2025年每周可提供25万次载客服务 [7] - 基于仿真的场景测试成为关键验证方法,可复现真实数据集中缺失的边缘案例 [8][21] - 基础模型通过大规模预训练获得通用知识,能高效适应特定AD任务 [9][10] 模型应用进展 - LLMs在场景评估中依赖高消耗提示词,新兴推理模型可能实现更高效零样本评估 [30] - VLMs通过BEV特征提取、VQA执行等技术应用于感知和预测任务 [34][36] - DMs通过前向加噪和反向去噪过程生成高质量场景样本 [42][44] 数据集与工具 - nuScenes和Waymo Open成为最具影响力的数据集,分别被引用52次和19次 [51] - CARLA、MetaDrive等仿真平台在研究中被广泛使用 [53] - 行业已建立多个基准挑战赛推动技术进步,如CARLA AD Challenge等 [54] 未来研究方向 - 需提升生成场景的真实性,将物理模型与数据驱动方法结合 [55] - 应开发专门针对罕见事件的生成方法,建立针对性数据集 [55] - 需创建多模态融合的大规模数据集,解决当前可扩展性问题 [56] - 行业亟需开发标准化评估指标和KPI体系 [56]
基于Qwen2.5-VL实现自动驾驶VLM的SFT
自动驾驶之心· 2025-07-29 08:52
技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [1] - 项目基于Qwen2.5-VL-7B-Instruct模型,该模型属于Qwen视觉-语言系列旗舰型号,具备视觉识别、物体定位、文档解析和长视频理解能力,支持动态分辨率处理和绝对时间编码 [2] - Qwen2.5-VL系列提供三种规格模型,旗舰型号Qwen2.5-VL-72B性能对标GPT-4o和Claude 3.5 Sonnet,7B和3B版本适合资源受限环境 [2] 数据集与应用场景 - 采用CoVLA(Comprehensive Vision-Language-Action)数据集,包含10,000个真实驾驶场景、超过80小时视频数据,通过自动化流程生成精确驾驶轨迹与自然语言描述 [3] - 实际训练仅使用400张筛选图片及对应QA对话数据,对话内容涉及天气判断、道路类型识别、风险提示等自动驾驶场景交互 [10][12][13] - 微调目标为构建自动驾驶辅助器,通过自然语言对话触发功能并返回结构化响应,例如识别交通信号灯、行人车辆等风险因素 [1][20] 实施流程与工具链 - 技术栈包括LLaMA Factory微调框架、Qwen2.5-VL-7B-Instruct基座模型、CoVLA数据集及SwanLab训练可视化工具 [1][14] - 部署过程涉及模型下载(通过Hugging Face镜像加速)、路径配置、Web UI参数调整(批处理大小/梯度累积优化显存占用) [6][7][9][19] - 微调后模型保存在指定路径,测试显示其回答针对性优于原生模型,例如对"自动驾驶风险关注点"的响应更精准 [17][20][22] 行业生态与资源 - 相关社区覆盖近4000名成员,300+企业与科研机构参与,涉及30+自动驾驶技术方向包括大模型应用、BEV感知、多传感器融合等 [24] - 配套课程涵盖端到端自动驾驶、VLA、仿真测试等前沿方向,技术方案与行业动态同步更新 [26]
ICCV 2025自动驾驶场景重建工作汇总!这个方向大有可为~
自动驾驶之心· 2025-07-29 08:52
自动驾驶场景重建研究进展 - ICCV2025已放出多篇自动驾驶闭环仿真相关论文 国内外顶尖院校如清华大学 南开大学 复旦大学 浙江大学 伊利诺伊大学厄巴纳-香槟分校等团队均在发力该领域 [2] - 当前研究聚焦动态目标与静态场景联合重建 需兼顾LiDAR与视觉数据融合 实现色彩与几何信息的精准建模 [2] - 代表性工作包括: - 清华与UIUC合作的InvRGB+L 通过统一颜色与LiDAR反射率建模实现复杂场景逆向渲染 [5] - 南开与UIUC的AD-GS 采用B样条高斯泼溅技术实现自监督自动驾驶场景重建 [6] - 复旦的BézierGS 通过贝塞尔曲线高斯泼溅完成动态城市场景重建 [10] - 清华 浙大与菜鸟网络的RGE-GS 利用扩散先验实现奖励引导的驾驶场景扩展重建 [11] 3DGS技术发展与课程体系 - 3D高斯泼溅(3DGS)技术已衍生出2DGS/3DGS/4DGS/混合GS等多个子方向 涉及新视角泛化 场景编辑 自动驾驶仿真闭环等应用 [12] - 业内首门3DGS全栈实战课程覆盖八大模块: - 视觉重建算法基础(NeRF与3DGS技术起源) [19] - 3DGS核心技术解析(数据算法 可视化 评测体系) [21] - 静态场景重建(CVPR2024最佳学生论文Mip-Splatting实战) [23] - 动态场景重建(CVPR2024满分论文Deformable GS应用) [25] - 场景表面重建(SOTA方案PGSR技术剖析) [27] - 自动驾驶混合重建(Street Gaussians动静态分解策略) [29] - gsplat框架实战(工业级驾驶场景重建算法开发) [31] - 学术与职业发展(3DGS研究趋势与工业落地现状) [33] 技术团队与资源 - 课程由头部自动驾驶公司算法专家Jeff主导 其在SIGGRAPH CVPR等顶会发表8篇论文 专注NeRF/3DGS算法研究 [36] - 配套资源包括《NeRF与自动驾驶论文带读课程》及gsplat开源框架支持 需学员自备12G以上显存GPU [15][38] - 目标学员涵盖高校研究人员 企业技术骨干及转行人员 需具备Python/PyTorch基础与三维重建入门知识 [37][40]
Diffusion/VAE/RL 数学原理
自动驾驶之心· 2025-07-29 08:52
Diffusion Model - 扩散模型通过高斯分布的均值(原图提供)和方差(噪声系数提供)进行图像生成 [3] - 模型推导中关键变量α_t与噪声ε_t的线性组合服从N(0,1-α_tα_{t-1})的正态分布 [5] - 网络训练目标是拟合去噪过程中两个高斯分布的均值和方差 [7] - 通过KL散度项拟合理论去噪值与网络预测值 [9] - 将不确定的x_0转化为可预测的噪声ε进行迭代 [15] - 最终模型将分布拟合问题转化为噪声预测问题 [17] VAE模型 - 变分自编码器假设潜在空间服从高斯分布 [19] - 普通自编码器不具备生成能力 [21] - 使用神经网络拟合编码器 [23] - 通过重建损失+KL约束损失避免潜在空间退化 [26] - 最小化KL损失等价于最大化ELBO [27] - 训练过程包含重建损失和KL损失的平衡 [30] 强化学习 - 马尔可夫决策过程描述为状态-动作序列(s1,a1,s2,a2...) [35] - 表征学习分为语义表征(趋近脉冲分布)和生成表征(趋近高斯分布) [36] - 时间差分方法利用后续更准确的结果更新前期估计 [40] - 策略梯度方法学习最优状态-动作转换策略 [42] 自动驾驶行业 - 行业社区规模达4000人,涵盖300+企业和科研机构 [42] - 技术栈覆盖30+方向包括感知/定位/规划控制等领域 [42] - 重点技术包含BEV感知、多传感器融合、轨迹预测等 [42] - 专业课程覆盖端到端自动驾驶、大模型应用等前沿方向 [42]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]