Workflow
自动驾驶之心
icon
搜索文档
端到端系列!SpareDrive:基于稀疏场景表示的端到端自动驾驶~
自动驾驶之心· 2025-06-23 19:34
本文认为现有的端到端方法主要存在两个问题:一个是BEV范式下的方法非常耗算力;另一个是预测和planning串联式的方式不够好,场景信息是在 agent周围提取,忽略了自车。并且运动预测和规划都是多模态问题。基于此,本文提出一种Sparse范式下的端到端方法,且预测和planning并行。 Contribution: SparseDrive的主体结构沿用了之前地平线Sparse系列的思想: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 探索了端到端自动驾驶的稀疏场景表示,并提出了一种以稀疏为中心的范式; 修改了运动预测和规划之间的巨大相似性,提出了一种分层规划选择策略; nuScenes 上 SOTA。 特征提取; 对称稀疏感知; 平行运动规划器; 训练的损失函数如下: SparseDrive: 损失函数 www.zdjszx.com □ Loss $${\mathcal{L}}={\mathcal{L}}_{d e t}+{\mathcal{L}}_{m a p}+{\mathcal{L}}_{m o t i o n}+{\mathcal{L}}_{p ...
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 19:34
论文标题 : Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving 论文作者: Hao Jiang, Chuan Hu, Yukang Shi, Yuan He, Ke Wang, Xi Zhang, Zhipeng Zhang 论文链接: https://www.arxiv.org/pdf/2506.05442 作者 | Hao Jiang 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『端到端自动驾驶』技术交流群 本文只做学术分享,如有侵权,联系删文 引言 最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中,基于 视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。 现有的VLM训练范式严重依赖带有自由格式的文本标注数据集 ,如图1(a)所示。虽然这些描述 能够 捕捉丰富的语义信息,但 由于两种结构不同但是表达相近的句子会增加模型在学习任 ...
ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR'25)
自动驾驶之心· 2025-06-23 19:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 北理工&清华 最新的工作! MMTL-UniAD:辅助 驾驶感知中多模态和多任务学习的统一框架(CVPR'25)。 如果您有相关工作需 要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>点击进入→ 自动驾驶之心 『多任务学习』技术交流群 论文作者 | Wenzhuo Liu等 高级驾驶辅助系统需要对驾驶员的心理/生理状态以及交通环境进行全面感知,但现有研究往往忽视了这 些任务之间联合学习所带来的潜在优势。本文提出了一种统一的多模态多任务学习框架——MMTL- UniAD,该框架可同时识别驾驶员行为(如四处张望、交谈)、驾驶员情绪(如焦虑、愉快)、车辆行 为(如变道、转向)以及交通环境(如拥堵、通畅)。本研究的关键挑战在于如何缓解多任务联合学习 过程中产生的负迁移现象。该现象是多任务学习中核心难点,指由于任务间存在差异或冲突,导致某些 任务在联合训练下的性能反而低于其单独训练时的表现。为解决这一问题,我们在框架 ...
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 19:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
为什么一篇论文要耗尽整个研究生生涯?
自动驾驶之心· 2025-06-23 16:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博士都毕不了 业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设计总遇瓶颈,写作 逻辑混乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机器人领域,真的有点力不 从心! 一篇论文往往需要1-2年的时间筹备发出,对硕士来说,基本上贯穿了整个学术生涯。方法错误、走弯路、 无人指点是最消耗时间的!论文发表难,但也不是没有办法,有大佬带队,一年发几篇都很正常。筹备了 好久,我们服务大家的论文辅导正式推出了,面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内最顶 尖的学术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑战与机遇, 更明白一篇高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们300+专职于自动驾驶/具身智能方向的老师。来自于全球QS排名前100 ...
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 22:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型高效微调已经成为业界关注的焦点,无论是通用大模型,还是智驾大模型,如何通过轻量微调变成各个不同领域的专业模型,成为 讨论的热点。所以今天就来大家一起聊聊LORA。 背景: 业内的大公司或者研究机构,都是有足够资源的来开发大模型,但是对于一般的小公司或者个人来说,要想开发自己的大模型几乎 不可能,要知道像 ChatGPT 这样的大模型,一次训练的成本就在上千万美元,而即使是DeepSeekv3,单次训练成本也在500万美元以上, 所以充分利用开源大模型,在领域任务上高效微调便成为了当下学术界和工业界迫切需要解决的问题,至此LoRA问世: LoRA 的思想很简单: 而这个降维的操作就需要用到低秩分解了,接下来我们回顾下低秩分解: * [16] A. A. K. 那么LoRA训练的思路和优势是什么呢? 在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。 训练的时候固定 PLM 的参数,只训练降维矩阵 A ...
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/696732944 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『LLM』技术交流群 本文只做学术分享,如有侵权,联系删文 论文地址:https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文,一作单位是清华 这篇主要有三个部分,1. 从理论和实验上看,DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上(编程比赛)碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状,即大部分的开源的榜单上,DPO 占据了领先的位置,但是众所周 知,最好的闭源模型 GPT4 和 Claude,用的都是 PPO 方案。所以这里就自然引出两个问题,即 1. DPO 相 对 PPO 真的有优势吗?2. 如何让 PPO 也很能刷榜呢? DPO 的缺陷 在调教 PPO 的时候,一种常见的现象是语言模型发现了奖励模型的缺陷,而构 ...
实验室老板想搞个自动驾驶小车,还没什么头绪。。。
自动驾驶之心· 2025-06-22 22:09
产品发布与促销 - 黑武士系列001自动驾驶教研小车正式开售,原价36999元,现下单赠送3门课程(模型部署+点云3D检测+多传感器融合)[1] - 当前订单已排满,5台及以上批量采购可享优惠,主要面向高校和研究院所[2] 产品定位与功能 - 定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等全栈功能[5] - 适用于本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等多场景应用[9] - 支持二次开发,预留多种传感器接口(相机、毫米波雷达等)[6] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(FOV360°*59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[16][26] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器[16] - 阿克曼底盘设计,车体尺寸620×400×320mm,自重30kg,最大载荷30kg[18][19] - 续航时间>4小时,最大运动速度2m/s,采用24V供电系统[18][19] 软件系统 - 基于ROS框架,支持C++/Python开发[21] - 提供一键启动开发环境,包含2D/3D目标检测、多模态SLAM(视觉/激光/惯性)、点云处理、车辆导航避障等22项核心功能[22] - 代码示例显示支持地图构建、轨迹规划等算法模块[41] 测试验证 - 已完成室内/室外/地库等多场景测试,包括: - 户外公园行驶[10] - 点云3D目标检测[11] - 2D/3D激光建图[12][13] - 上下坡测试[14] - 大场景3D建图[15] 售后服务 - 提供1年非人为损坏保修,人为损坏可付费维修[44] - 提供硬件采购咨询通道[44]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤 其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自 动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量 产。 随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。 所以哪些高质量工作现在应该格外关注?趋势在往什么方向发展?量产应用究竟如何?全都是值得每一位前沿从 业者思考~ 为此,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表时间排 序,其中不乏全球顶尖高校团队和工业界研究团队的工作。 并在文末做了一些对当下工作的观点整理,感兴趣 的小伙伴不要错过呦~ 标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adapt ...
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 09:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶技术日渐火热,各类开发者数据集层出不穷。"自动驾驶之心"已整理收录了100多个优质自动 驾驶数据集,为初学者和工程师提供了丰富素材。本文仅选取其中5个数据集进行介绍,覆盖了从感知 (目标检测、分割)到视觉里程计等多种任务场景。无论你是入门新手还是科研工程师,这5个数据集 都值得关注,更多资源欢迎加入社群获取完整资料! 不过,本文介绍的只是"自动驾驶之心"社群中海量资源的一小部分。想要获取全部100+数据集的详细信 息,以及与志同道合的业内同仁实时交流,请加入"自动驾驶之心"知识星球并加入社群! 1. KITTI 数据集 KITTI 数据集是自动驾驶领域最经典、使用最广泛的基准数据集之一。它通过在卡尔斯鲁厄街道环境中 搭载高精度传感器(如双目彩色/灰度相机、Velodyne 3D 激光雷达、GPS/IMU 等)采集数据。数据集中 包含了立体视觉、光流、视觉里程计、3D 目标检测和跟踪等多种感知任务的标注(如图像序列和 3D 物 体轨迹)。丰富的城市、高速和乡村场景让 KITTI 成为评测车载视觉算法性能 ...