自动驾驶之心

搜索文档
清华最新SOTA!ArbiViewGen:自监督框架实现多车型任意视角可控图像生成~
自动驾驶之心· 2025-08-11 07:32
核心观点 - 提出ArbiViewGen框架,用于自动驾驶场景中任意视角图像生成,解决外推视角缺乏真实数据的问题 [4][9] - 采用特征感知自适应视角拼接(FAVS)和跨视角一致性自监督学习(CVC-SSL)两大核心模块 [9][10] - 在nuScenes数据集上验证,性能优于基线方法,PSNR达14.2335,SSIM达0.9691 [14][15] 研究动机与贡献 - 自动驾驶行业面临多源传感器系统异构配置带来的数据复用挑战 [5] - 现有方法依赖目标视角真实监督,难以适应自动驾驶场景非结构化数据分布 [6] - 首次实现多种车辆异构配置中可控任意视角相机图像生成 [4] 方法总览 - FAVS模块通过分层优化策略实现六相机图像到任意目标视角的高质量拼接 [9] - CVC-SSL模块基于潜在扩散模型,引入几何引导跨视角注意力机制 [10] - 仅需多相机图像及其姿态信息,无需额外传感器或深度图 [3] 技术细节 - FAVS包含几何变换建立、特征匹配优化、目标对齐微调、自适应融合生成四阶段 [9] - CVC-SSL通过循环重建自监督范式克服新颖视角缺乏监督的问题 [13] - 提出图像质量评估策略,投影彩色点云建立定量评估框架 [13] 实验结果 - 定量指标全面优于基线:PSNR提升48.8%(9.5647→14.2335),MAE降低47.2%(72.4672→38.2820)[14] - 消融实验显示FAVS和CVC-SSL分别带来27.4%和19.9%的PSNR提升 [15] - 可视化结果展示更好的结构一致性和空间完整性 [18] 应用前景 - 增强自动驾驶系统在不同传感器配置中的适应性和鲁棒性 [23] - 促进跨平台部署和可扩展数据重用,降低开发成本 [5][23] - 未来将整合激光雷达深度先验和语义一致性约束以提升质量 [23]
成立了一个自动驾驶求职交流群~
自动驾驶之心· 2025-08-11 07:32
大家都感觉到自动驾驶技术栈开始趋同,以前大大小小几十个方向都需要算法工程师,现在one model、 VLM、VLA,统一方案的背后其实是更高的技术壁垒。博主一直在鼓励大家坚持、多多交流,但归根结底个 人的力量是有限的。我们希望共建一个大的社群和大家一起成长,真正能够帮助到一些有需要的小伙伴,成为 一个汇集全行业人才的综合型平台。所以我们也开始正式运营求职与行业相关的社群。社群内部主要讨论相关 产业、公司、产品研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加 入我们! 微信扫码添加小助理邀请进群,备注自驾+昵称+求职; ...
即将开课!端到端与VLA自动驾驶小班课来啦(扩散模型/VLA等)
自动驾驶之心· 2025-08-11 07:32
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,自UniAD获得CVPR Best Paper后引发国内智驾军备竞赛 [2] - 2024年理想汽车宣布E2E+VLM双系统架构量产,技术通过传感器数据直接输出规划或控制信息,避免模块化方法误差累积 [2] - BEV感知打破模块化壁垒,UniAD统一感知和规划任务,推动端到端技术进入新阶段 [2] - 当前技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识 [3] 技术课程核心内容 - 课程涵盖二段式端到端(PLUTO)、一段式端到端(UniAD)、基于世界模型(OccWorld)、基于扩散模型(DiffusionDrive)及VLA方向 [7] - 第一章解析端到端发展历史及模块化到端到端的演变,对比一段式、二段式、VLA范式优缺点 [9] - 第二章重点讲解背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习及BEV感知 [9][12] - 第三章聚焦二段式端到端,分析PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [10] - 第四章深入一段式端到端与VLA,覆盖UniAD、OccWorld、DiffusionDrive及ORION等实战案例 [11] 课程特色与目标 - 采用Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [4][5] - 结合实战环节完成理论到实践闭环,包括RLHF微调及VLA算法复现 [6][13] - 学员需具备自动驾驶基础、Transformer/BEV感知等知识,课程目标为达到1年算法工程师水平 [18] - 课程进度安排为3个月,分章节解锁内容并配备VIP群答疑 [18] 行业趋势与就业需求 - 端到端自动驾驶成为智能驾驶代表方向,学术界与工业界加速布局VLA等前沿技术 [2][11] - VLA技术因上限高、难度大成为招聘热点,涉及VLM、BEV、扩散模型等多技术融合 [11] - 扩散模型在多模轨迹预测中应用广泛,DiffusionDrive等作品推动工业界落地尝试 [11][12]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
自动驾驶之心· 2025-08-10 11:31
以下文章来源于具身智能之心 ,作者具身智能之心 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 本篇内容来源于2025年7月27日由智元机器人主办,以"全球视角下的具身智能新机遇"为主题的"智启具身论 坛"。作为2025世界人工智能大会(WAIC 2025)的重要高峰论坛之一, 本次论坛汇聚包括来自PI、Intrinsic、 清华大学、Sanctuary AI、英伟达、亚马逊等全球具身智能领域的 "最强大脑",聚焦机器人基础模型泛化、高性 能操控等关键方向。 论坛嘉宾如下: 罗剑岚 :智元机器人首席科学家/具身研究中心主任/上海创智学院副教授 Sergey Levine :Physical Intelligence(Pl) 联合创始人/UC Berkeley 副教授 Stefan Schaal :Instrinsic (Alphabet)科学与AI 事务负责人 苏航 :清华大学计算机系副研究员/IEEE TPAMI 期刊编委 陈曦 :亚马逊应用科学、前沿人工智能与机器人部门负责人 姚卯青 :智元机器人合伙人/具身业务部总裁 前言 我们正身处一个机器人技术蓬勃发展的激 ...
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
最近很多同学咨询柱哥端到端和VLA的方案,相比于模块化方法,统一的感知、规控建模会带来更高的智驾能力上限,这些方案的技术难度上也更大。今天自动 驾驶之心汇总了行业里面参考最多的端到端和VLA算法。 更多内容欢迎移步自动驾驶之心知识星球,一个交流技术和方案的地方。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端思维导图一览。整体来说,端到端分为一段式和二段式两个大的方向,二段式更偏联合预测一些,感知作为输入,模型聚焦于自车的轨迹规划和他车的轨 迹预测。而一段式端到端则是建模从传感器输入到自车轨迹的输出的过程。具体又可以细分为基于感知的一段式端到端(UniAD)、基于扩散模型的一段式端到 端(DiffusionDrive)、基于世界模型的一段式端到端(Drive-OccWorld),这些方法各有侧重点,量产中会结合各种方法的优点进行模型优化。 而VLA则是VLM+E2E的延伸,期望通过大模型的能力赋予量产模型更高的场景理解能力,目前星球内部梳理了语言模型作为解释器的相关工作、模块化VLA汇 总、统一端到端VLA梳理及推理增强VLA的诸多算法汇总。星友们 ...
二段式SOTA!港科大FiM:从Planning的角度重新思考轨迹预测
自动驾驶之心· 2025-08-10 00:03
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,显著提升预测置信度和准确性 [9][48] - 开发基于奖励驱动的意图推理器,结合QIRL框架实现可解释的行为意图推理 [6][9][24] - 引入Bi-Mamba增强的分层DETR-like解码器,有效捕捉轨迹序列依赖关系 [27][29][48] - 在Argoverse和nuScenes数据集上超越多个SOTA模型,minFDE6降低5-15% [34][36][38] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义GRT作为离散决策序列 [5][17] - 基于MaxEnt IRL构建QIRL框架,学习参与者特定奖励分布 [6][14][23] - 通过策略rollout生成多模态GRT,提供意图先验指导 [24][26] - 辅助S-T OGM预测头建模未来交互,提升特征融合 [25][41] 轨迹解码架构 - 分层设计:首先生成无锚点轨迹提议,再进行基于锚点的优化 [26][27] - 双向Bi-Mamba结构处理轨迹序列,双向CLS token增强特征融合 [29][42] - 模态自注意力模块促进多模态交互,避免模态坍塌 [31][43] - 整体采用编码器-解码器结构,集成场景编码与轨迹生成 [18][20] 实验结果 定量指标 - Argoverse1测试集:Brier score 0.5732(集成模型),优于HPNet(0.5912) [34][35] - Argoverse2验证集:minFDE6 0.528,长期监督版本(GRT-L)表现最佳 [36] - nuScenes数据集:minADE10 0.78,MR10 0.23,全面领先现有方法 [37][38] 消融研究 - 移除推理分支导致brier-minFDE6上升44%(2.879→1.602) [40] - Bi-Mamba比单向结构降低Brier score 1.5%(0.603→0.594) [42] - OGM模块贡献约6%的minFDE6提升(1.670→1.602) [40][41] 行业应用 - 验证了RL范式在驾驶行为建模的可行性,为VLA时代提供技术基线 [48][54] - 课程内容显示VLA算法工程师岗位薪资达40-70K,反映技术需求 [54][55] - 知识星球社区覆盖30+技术栈,4000+成员包含300+企业与机构 [59]
自动驾驶之心实习生招聘来啦!欢迎加入我们~
自动驾驶之心· 2025-08-10 00:03
目前自动驾驶和具身智能两个方向我们已经和业内主流的公司及相关高校建立起深度的合作,大模型方向 也正在快速搭建。我们不止聚焦在技术本身,更愿意和大家一起共创整个AI领域,分享认知成长的喜悦。 对于热门事件,我同样希望我们提供全网独一份的内容价值。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 大家好,我们是自动驾驶之心/具身智能/大模型之心Tech团队。非常高兴在这里和你相遇,如果你也认同技 术内容可以改变世界,那你可能就是我们在找的人! 我们在做什么? 我们希望通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,更乃至数十万的AI开发者和创 业者。我们致力于为大家带来全网最新最权威的技术信息,团队聚焦在自动驾驶、具身智能、大模型等AI 最前沿的技术领域,涵盖学术论文解读、业内量产方案分析、大模型评测、商业动态、行业招聘、开源项 目等,并通过公众号、社群、视频号、知乎、小红书、B站等平台进行内容分享、粉丝交流及企业联系。 工作时间: 不积跬步无以至千里,我们深知一个人的力量是有限的,所以我们期待更多优秀的小伙伴与我们一起同行~ 内容运营 - 实习生 ...
自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
自动驾驶之心· 2025-08-10 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自从2009年, 谷歌开启自动驾驶技术研发热潮(现称 Waymo ), 自动驾驶发展近二十年了,当下正处于行业下沉的关键期。 一路走来,从模块化方法到现在的端到端/VLA方法,伴随着智驾能力的不断攀升,我们对实现真正的自动驾驶也抱有更高的期待,真心希望智能驾驶可以融入 我们日常的出行当中。在这期间,我们也一直在紧跟自动驾驶前沿。我们一直精打细磨的知识星球到目前为止已经完成了产业、学术、求职、问答交流等多个领 域的闭环。几个运营的小伙伴每天都在复盘,什么样的社区才是大家需要的?刚入行的小白如何快速入门?有基础的同学如何持续提升?转行的小伙伴如何有效 学习?我们做了很多很多...... 未来我们计划继续优化星球内容,今天也和大家汇报一下:打算开展一个星友面对面的模块,争取每个月线上和大家一起聊聊,针对共性的问题一起探讨下。未 来还将持续邀请邀请学术界和工业界的大佬做一些有深度的圆桌访谈! 我们是一个认真做内容的社区,一个培养未来领袖的地方。自动驾驶之心一直致力在推动行业发展,成为企业和高校沟通的桥梁。我们的愿景是 ...
某具身智能创始人“身兼数职”
自动驾驶之心· 2025-08-10 00:03
以下文章来源于红色星际 ,作者红色星际科技 红色星际 . 让更多人,更深入地了解自动驾驶行业! 作者 | 钟声 来源 | 红色星际 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 资本投资具身智能公司更像是土豪追白富美的故事, 资本对具身智能公司几亿、十几亿的砸钱投资,一些公司的创始人却是"身兼数职"。 这一波具身智能公司的创始人背景很有意思,有很多是顶流高校的"助理教授"。这些"助理教授"多数是名门海归,毕业于斯坦福、伯克利、麻省理工 等海外名校,在科研学术领域小有名气。 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 今年是具身智能融资的大年,资本热情的追着投具身智能公司。不过一些拿到大笔融资的具身智能公司创始人表现得却不是全职all in创业,而是"身 兼数职",有的还在顶流高校有教职,甚至有的还在外面干"私活"。 比如某具身智能公司,主抓智能技术研发的两位创始人就没有all in,还在顶流高校有教职,其中一位甚至还在外面做些智能驾驶的活赚钱。这位创始 人在一些车企以及智驾公司做"专家顾问",做项目发论文,报 ...
自动驾驶论文速递 | 端到端、分割、轨迹规划、仿真等~
自动驾驶之心· 2025-08-09 21:26
自动驾驶技术研究进展 - 斯坦福大学和微软提出DRIVE框架 实现0%软约束违反率 在inD、highD和RoundD数据集上验证了轨迹平滑性和泛化能力 [2][6] - DRIVE框架通过指数族似然建模学习概率性软约束 克服传统方法依赖固定约束形式的局限 [6] - 北京交通大学与海南大学开发混合学习-优化轨迹规划框架 高速公路场景成功率97% 实时规划性能54ms [11][12] - 美团与中山大学团队提出RoboTron-Sim技术 在nuScenes测试中实现困难场景碰撞率降低51.3% 轨迹精度提升51.5% [18][19][23] - 安徽大学团队提出SAV框架 在VehicleSeg10K数据集上达到81.23% mIoU 超越之前最佳方法4.33% [34][35][40] 算法创新与框架设计 - DRIVE框架将学习到的约束分布嵌入凸优化规划模块 支持数据驱动的约束泛化与系统性可行性验证 [6] - 混合学习-优化框架采用GNN预测速度剖面 MIQP进行路径优化 引入车辆几何离散化线性近似降低计算复杂度 [12] - RoboTron-Sim提出场景感知提示工程和几何感知图像到自车编码器 解耦传感器特定参数 [23] - SAV框架整合车辆部件知识图谱和视觉上下文样本增强策略 构建包含11,665张图像的数据集 [40] 实验性能表现 - DRIVE框架在轨迹平滑性和泛化能力上表现优异 软约束违反率为0% [6] - 混合学习-优化框架在复杂紧急场景中成功率超97% 平均规划时间54ms [12][13] - RoboTron-Sim在3秒预测时域L2距离平均0.23米 碰撞率0.26% 显著优于对比模型 [28] - SAV框架在车辆部件分割任务上mIoU达81.23% 建立包含13个部件类别的基准数据集 [34][40] 行业资源与社区建设 - 自动驾驶之心社区梳理40+技术路线 涵盖感知、规划、控制等方向 [45][46] - 社区提供自动驾驶数据集汇总 包含近百个数据集和标注工具 [46] - 开设感知融合、多传感器标定、SLAM等系列视频教程 与多家公司建立内推机制 [47] - 整理自动驾驶领域企业介绍、高校团队、会议信息等资源 [46]