自动驾驶之心

搜索文档
双非硕多传感融合方向,技术不精算法岗学历受限,求学习建议。。。
自动驾驶之心· 2025-08-13 21:06
自动驾驶之心知识星球,截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运营的小伙伴每天都在复盘,什么样的社区才是大家需要 的?我们有没有什么地方没有考虑到?花拳绣腿的不行、没人交流的也不行、找不到工作的更不行。星球内部为大家梳理了近40+技术路线,无论你是咨询行业 应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界 和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。 我们是一个认真做内容的社区,一个培养未来领袖的地方。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 双非的同学还是很难的,尤其是自驾算法方向的同学。。。 最近有双非的同学咨询我后续的学习建议,多传感器融合定位方向但学东西都不是很精,现在考虑毕业找工作开始发愁。。。 (向峰哥和柱哥提问,欢迎加入『自动驾驶之心知识星球』) 对于双非的同学,我真心的建议一定要找对圈子。身边的同学五花八门,学习氛围不是很浓,意志不强很容易被带偏。技术短板只要肯 ...
传统感知逐渐被嫌弃,VLA已经上车了?!
自动驾驶之心· 2025-08-13 14:04
理想i8与VLA司机大模型 - 理想i8成为首款搭载VLA司机大模型的理想车型 核心能力包括空间理解 思维能力 沟通与记忆能力以及行为能力 [2] - VLA能力提升体现在三方面 更懂语义(多模态输入) 更擅长推理(思维链) 更接近人类驾驶直觉 [2] - 行驶中可响应自然语言指令如"靠边停一下""往前走50米" 并能根据记忆设定路段速度 主动规避障碍 [5] VLA技术发展现状 - VLA是自动驾驶量产新里程碑 技术从E2E+VLM递进发展 行业多家公司投入研发 [7] - 技术栈涉及大语言模型 BEV感知 扩散模型 强化学习等多领域 转行门槛较高 [19] - 当前招聘需求旺盛 VLA算法专家岗位薪资达40-70K 量化部署工程师40-60K [15] 端到端自动驾驶课程体系 课程内容架构 - 第一章概述端到端发展历史 从模块化到一段式 二段式及VLA范式的演进 [26] - 第二章重点讲解大语言模型 BEV感知 扩散模型等背景知识 覆盖未来两年高频技术关键词 [26][33] - 第三章解析二段式端到端 包括PLUTO CARPLANNER(CVPR'25)等经典算法 [27] - 第四章深度剖析一段式端到端子领域 涵盖UniAD 世界模型 扩散模型及VLA前沿方案 [28][30][32][35] 教学特色 - 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [21] - 配套RLHF微调大作业 可迁移至VLA算法 提供ORION等实战项目 [35][37] - 课程目标使学员达到1年经验算法工程师水平 掌握BEV感知 多模态大模型等关键技术 [42] 行业技术趋势 - 世界模型应用广泛 涵盖场景生成 端到端驾驶及闭环仿真 成为近年热门方向 [30] - 扩散模型与VLM结合实现VLA 多模轨迹预测提升环境适应性 多家公司尝试落地 [32] - VLA技术上限高但难度大 小米ORION 慕尼黑工大OpenDriveVLA等方案推动量产进程 [35]
成立了一个端到端VLA技术交流群!行业信息一手触达~
自动驾驶之心· 2025-08-13 14:04
自动驾驶之心大模型VLA技术交流群成立了,欢迎大家加入一起交流端到端VLA相关的内容:包括VLA数 据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地、求职等 内容。 感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称+VLA加群。 ...
2025年大模型研究热点是什么?
自动驾驶之心· 2025-08-13 07:33
一个认真做内容的社区,一个培养未来领袖的地方。 自动驾驶VLA这么火,想借这个机会了解更多大模型相关的技术知识,有哪些方向可以做,现在热点在哪 里?为此,我们筹备了大模型之心Tech社区,平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预 训练、微调、强化学习)和大模型部署推理优化等等。欢迎对大模型技术感兴趣的小伙伴关注我们~ 如果您想做进一步学习,也欢迎加入我们的大模型之心Tech知识星球。大模型之心Tech知识星球,我们目标是 构建一个国内最大的大模型技术社区,一直在给行业和个人输送各类人才、产业学术信息。目标星球正在快速 搭建相关模块,欢迎加入我们与大模型同行。 ...
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-13 07:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当 Segment Anything Model(SAM) 以 分割万物 的能力震撼计算机视觉领域时,研究者们很快发现了它的局限: 无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架 。 如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM ,一个将分割范式从 分割任何事物 推向 任何分割 的突破性框架。 在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提 示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。 从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架? SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了 它的「短板」: 与此同时,多模态大语言模型(ML ...
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-13 07:33
作者 | 蔡道清 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1932480841222723066 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 作者阵容挺强的,代码也开源了,值得follow。 Motivation 自动驾驶世界模型需同时满足长时程高分辨率场景生成与实时精准轨迹规划,但现有方法存在明显局限: 因而,本文提出一个 既能生成长时高分辨率视频,又能端到端输出连续轨迹 的统一框架。 Contribution Paper link : https://arxiv.org/pdf/2506.24113 Code link : https://github.com/Kevin-thu/Epona 扩散模型(如Vista):固定长度视频生成(≤15秒),无法支持灵活长时预测(>2分钟)和多模态轨迹控制; GPT式自回归模型(如GAIA-1):可无限延伸,却需把图像 离散成 token ,导致视觉质量下降,且缺乏连 ...
自驾VLA再升级!博世最新IRL-VLA:奖励世界模型打造全新闭环强化学习框架
自动驾驶之心· 2025-08-13 07:33
自动驾驶技术框架IRL-VLA - 提出三阶段闭环强化学习框架:模仿学习预训练VLA策略、逆向强化学习构建奖励世界模型(RWM)、RWM引导的PPO策略优化[3][11][26] - 核心创新点包括轻量化RWM替代高成本仿真器、扩散式轨迹生成规划器、语义与3D推理模块融合[11][18][19] - 在NAVSIM v2基准测试EPDMS达74.9,CVPR2025挑战赛获亚军成绩45.0 EPDMS[3][42][46] 技术架构创新 - VLA模型整合语义推理模块(Senna-VLM框架)、BEV编码的3D推理模块、基于扩散的轨迹规划器[18][19] - RWM通过逆向强化学习建模8项驾驶指标(碰撞/合规性/舒适度等),权重遵循EPDMS标准[22][24] - 采用分层去噪的扩散策略生成多模态轨迹,结合GAE优势估计优化PPO训练过程[29][32] 性能验证与对比 - NAVSIM数据集测试显示:预训练模型(IRL-VLA-PT)在扩展舒适度(EC 76.0)和自车进度(EP 83.9)显著优于GTRS-Aug(EC 54.2/EP 76.1)[42] - 消融实验证实:扩散规划器使EPDMS提升3.0,语义推理模块提升1.4;模仿学习权重0.5时效果最佳[44][45] - 相比传统方法(PDM-Closed EPDMS 51.3),实现46%的性能提升且保持计算效率[42] 行业应用价值 - 首个不依赖仿真器的闭环VLA方案,解决Sim2Real领域差距与计算瓶颈问题[11][23] - 方法可扩展至真实世界数据,支持多目标(安全/效率/规则)联合优化[26][33] - 为端到端自动驾驶提供新范式,推动感知-规划-控制全链路协同优化[46]
自动驾驶VLA工作汇总(模块化/端到端/推理增强)
自动驾驶之心· 2025-08-12 19:42
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 VLA前置工作:VLM作为解释器 论文标题:DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model 论文链接:https://arxiv.org/abs/2310.01412 主页:https://tonyxuqaq.github.io/projects/DriveGPT4/ 论文标题:TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning 论文链接:https://arxiv.org/abs/2505.12670 主页:https://github.com/AiX-Lab-UWO/TS-VLM 论文标题:DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision- L ...
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 18:37
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当 Segment Anything Model(SAM) 以 分割万物 的能力震撼计算机视觉领域时,研究者们很快发现了它的局限: 无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架 。 如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM ,一个将分割范式从 分割任何事物 推向 任何分割 的突破性框架。 在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提 示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。 从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架? SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了 它的「短板」: 与此同时,多模态大语言模型(ML ...
打算升级下技术社区,跟大家汇报一下......
自动驾驶之心· 2025-08-12 18:37
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 一晃又是一周年了。相比于去年,三周年更是一个里程碑,我们成熟了很多。这一年我们重点 开拓了硬件业务、论文辅导和求职业务,从纯线上教育转行到硬 件教具、线下培训、求职招聘等全栈式服务平台。 伴随着行业的起起伏伏,我们也在不断磨练中成长,行业最大的变化无疑是大模型引发的新一轮智驾方案升级VLM/VLA ,为此我们也专门采访了自动驾驶之心 知识星球的嘉宾→ 聊过十多位大佬后的暴论:自动驾驶还有很多事情没做,转行具身大可不必! 三年期间, 自动驾驶之心知识星球是我们投入最多时间搭建和维护的平台。 截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运营 的小伙伴每天都在复盘,什么样的社区才是大家需要的?我们有没有什么地方没有考虑到?我们一直致力于推动行业发展,成为企业和高校沟通的桥梁。愿景是 让AI与自动驾驶走进每个有需要的同学! 未来还会持续打磨我们的星球,今天也跟大家汇报一下:一是持续邀请学术界和工业界的大佬展开一些深度的圆桌交流,让大家看看自动驾驶的最前沿实际都在 发生什么;二是计划开展一个星友 ...