Workflow
自动驾驶世界模型
icon
搜索文档
和港校自驾博士交流后的一些分享......
自动驾驶之心· 2025-11-20 08:05
自动驾驶技术社区与资源平台 - 该公众号文章核心是推广"自动驾驶之心知识星球"社区,该社区定位为自动驾驶领域的技术交流与资源平台 [2][6][16] - 社区已运营三年,目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [6][7] - 社区内容形式包括视频、图文、学习路线、问答和求职交流,覆盖40多个自动驾驶技术方向 [6][9][16] 社区成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室 [16] - 企业成员包括蔚小理、地平线、华为、大疆、广汽、上汽、博世等近300家自动驾驶相关公司 [16][95] - 平台与多家自动驾驶公司建立了岗位内推机制,提供简历直推服务 [11] 技术内容覆盖范围 - 社区系统梳理了自动驾驶全技术栈,包括感知、规划控制、仿真、端到端、VLA等40多个方向 [9][16][17] - 具体技术领域包括BEV感知、3D目标检测、多传感器融合、Occupancy Network、轨迹预测、SLAM等 [10][50][52][54][57][58][77] - 涵盖前沿热点如世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、3DGS与NeRF等 [40][42][44][48][38] 学习资源与课程体系 - 社区提供原创视频课程,包括感知融合、多传感器标定、SLAM与高精地图、决策规划等9大系列 [11] - 汇总了近60个自动驾驶数据集、行业主流仿真平台及各类技术学习路线 [16][34] - 设有"自动驾驶100问"系列,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等7个专题 [10] 学术交流与行业洞察 - 定期举办星友面对面交流活动,目前已开展至第四期,邀请学术界和工业界专家探讨技术趋势 [2] - 社区内部经常解答端到端入门、多模态大模型学习路线、数据闭环工程实践等实用问题 [7] - 不定期邀请一线大佬直播分享,目前已举办超过100场专业技术直播 [87] 社区特色服务 - 为初学者提供全栈方向学习课程和技术路线图,适合0基础入门 [10][11][17] - 汇总了国内外自动驾驶高校实验室和公司信息,为升学就业提供参考 [26][28] - 提供快速问答服务,成员可自由提问工作选择、研究方向等实际问题 [89]
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 08:03
文章核心观点 - 文章通过分享苹果姐的职业发展案例,强调在自动驾驶行业成功需要抓住机会并持续学习转型 [1] - 自动驾驶之心知识星球是一个综合性技术社区,提供超过40个技术方向的学习资源和行业交流平台 [4][7][10] - 社区目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [4] 社区资源与内容 - 社区汇总了近40+技术路线,涵盖BEV感知、端到端自动驾驶、多传感器融合等核心领域 [7][10][17] - 提供近60+自动驾驶数据集、行业主流仿真平台和各种技术学习路线 [16] - 社区内部梳理了自动驾驶100问系列,包括TensorRT模型部署、毫米波雷达融合等实用问题 [10] - 拥有超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果 [91] 学习与课程体系 - 社区提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、3D目标检测等热门方向 [89] - 原创直播课程包括感知融合、多传感器标定、SLAM与高精地图等8大系列 [11] - 为入门者提供全栈方向学习课程,适合0基础小白系统学习 [10][11] 行业连接与就业支持 - 社区成员来自上海交大、北京大学、CMU等知名高校和蔚小理、华为、英伟达等头部企业 [16] - 与多家自动驾驶公司建立内推机制,提供大模型-端到端算法工程师等热门岗位推荐 [12] - 社区定期分享行业机会挖掘、投资与项目对接信息 [21] 技术领域覆盖 - 重点技术方向包括:VLA学习路线、多模态大模型、Occupancy Network、3DGS与NeRF等 [17][38][41][48] - 详细梳理了端到端自动驾驶的一段式/二段式方案、量产方案和VLA相关算法 [38][48] - 覆盖BEV感知、3D目标检测、轨迹预测、规划控制等自动驾驶核心技术栈 [17][50][54][56]
Dream4Drive:一个能够提升下游感知性能的世界模型生成框架
自动驾驶之心· 2025-10-29 08:04
文章核心观点 - 提出了一种名为Dream4Drive的全新3D感知合成数据生成框架,旨在解决现有自动驾驶世界模型在评估合成数据有效性时存在的公平性问题,并显著提升下游感知任务的性能 [1][5][6] - 该框架通过将输入视频分解为3D感知引导图、渲染3D资产并微调世界模型,能够灵活生成大规模多视角极端场景视频,仅需添加不足2%的合成样本即可在相同训练轮次下超越纯真实数据训练的效果 [1][6][27] - 研究构建了大规模3D资产数据集DriveObj3D以支持多样化编辑,并通过大量实验证明该方法在不同训练轮次和分辨率下均能有效提升3D目标检测与跟踪等关键感知任务的性能 [2][27][29][30] 背景回顾 - 自动驾驶感知模型的性能高度依赖大规模人工标注数据,但收集长尾场景数据耗时费力,现有基于扩散模型或ControlNet的世界模型对单个目标的位姿和外观控制能力有限,难以生成多样化合成数据 [4] - 现有合成数据增强方法通常采用“合成数据预训练+真实数据微调”的策略,导致总训练轮次是基准模型的两倍,在训练轮次相同时,混合数据集相比纯真实数据训练并无优势,甚至性能更差 [5] - 视频编辑方法和基于NeRF/3DGS的重建类方法分别存在单视角局限性以及伪影、渲染不完整和视觉不一致等问题,限制了其在环视BEV感知任务中的应用 [4] Dream4Drive算法详解 - 框架核心流程包括将输入视频分解为深度图、法向量图、边缘图等3D感知引导图,将3D资产渲染到引导图上,并通过微调世界模型生成编辑后的多视角真实感视频 [5][8][16] - 采用密集型3D感知引导图而非稀疏空间控制(如BEV地图),结合多条件融合适配器和空间视角注意力机制,确保实例级空间对齐、时间一致性和跨视角连贯性 [8][19] - 训练目标结合了简化的扩散损失、前景掩码损失和LPIPS损失,无需昂贵3D标注,仅依赖RGB视频及可通过现成工具生成的引导图,大幅降低训练成本 [20][21] DriveObj3D资产 - 为支持多样化3D感知视频编辑,设计了一套高效3D资产生成流程,包括使用GroundedSAM进行目标分割、Qwen-Image生成多视角一致图像、Hunyuan3D进行3D网格重建 [22][25] - 构建了大规模3D资产数据集DriveObj3D,涵盖驾驶场景典型类别,其资产生成方法相比Text-to-3D和单视角方法能生成更完整、高保真且风格一致的资产 [9][25] 实验结果分析 - 在下游3D检测任务中,仅添加420个合成样本(<2%真实数据量),在1倍训练轮次下mAP从34.5提升至36.1,NDS从46.9提升至47.8;在2倍轮次下mAP从38.4提升至38.7,NDS从50.4提升至50.6 [27][28] - 在下游跟踪任务中,同等条件下AMOTA从30.1提升至31.2(1倍轮次)以及从34.1提升至34.4(2倍轮次)[27][28] - 在高分辨率(512×768)设置下,性能提升更为显著,mAP提升4.6个百分点(相对提升12.7%),NDS提升4.1个百分点(相对提升8.6%)[29] 消融实验 - 插入位置影响性能,左侧插入优于右侧(mAP提升0.4个百分点,NDS提升0.9个百分点),远距离插入效果优于近距离,因近距离插入可能造成严重遮挡 [37][38] - 3D资产来源影响合成数据质量,使用与数据集风格一致的资产(本文方法)相比Trellis或Hunyuan3D能产生更优的下游任务性能(mAP 40.7 vs 39.8/40.2)[39][41] - 与直接投影的“朴素插入”方法相比,Dream4Drive的生成式方法因能合成阴影、反射等真实感细节,在各项指标上均表现更优 [33][35]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 08:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]
4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?
自动驾驶之心· 2025-07-31 14:19
社区定位与愿景 - 打造国内首个自动驾驶全栈技术交流平台,连接产业界与学术界,形成学术、产业、求职的闭环生态 [13] - 愿景是推动AI与自动驾驶技术普及,让相关资源触达每位有需求的学习者 [1] - 社区定位为培养未来行业领袖的孵化器,强调内容质量与实用性,避免形式化运营 [3] 核心资源体系 - **技术路线**:梳理40+技术路线,覆盖感知、仿真、规划控制三大方向,包括BEV感知、3DGS、世界模型等前沿领域 [14][15] - **学习资料**:提供原创视频课程(如数据工程、VLA技术等9大系列)、60+数据集、40+开源项目及行业书籍 [4][25][27][23] - **专家网络**:聚集数十位来自头部企业(蔚小理、华为、英伟达等)和顶尖高校(清华、CMU、ETH等)的一线专家 [14] 行业服务功能 - **求职对接**:与多家自动驾驶公司建立内推机制,实时分享实习/校招/社招岗位信息 [4][11][17] - **技术研讨**:组织超100场专业直播,内容涵盖VLA、3DGS、扩散模型等热点,部分场次由顶会论文作者主讲 [74] - **问题解答**:成员可自由提问技术难题(如3D车道线真值生成、BEV精度优化等),获得产业界实战解决方案 [75][79] 前沿领域覆盖 - **关键技术**:深度聚焦VLA(视觉语言模型)、端到端自动驾驶、世界模型等2025年重点方向,提供数据集、算法及量产方案 [35][37][29][33] - **工具链**:整合标定工具、CUDA加速、模型部署等工程化内容,覆盖从研发到落地的全流程 [55][59][61] - **创新应用**:探索3DGS与闭环仿真结合、扩散模型在场景重建中的应用等交叉领域 [31][40] 成员生态 - **用户构成**:成员来自上海交大、CMU等高校实验室及蔚来、大疆等企业,形成产学研协同网络 [14] - **互动模式**:通过圆桌讨论、开源项目协作、日常技术问答(如激光雷达数据处理)促进深度交流 [2][77][79] - **成长路径**:为小白提供入门路线图,为进阶者设计产业级项目方案,实现技术能力阶梯式提升 [8][10]
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 20:17
自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona,融合扩散模型与自回归模型优势,支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新:解耦时空分解(分离时间动态建模与细粒度生成)、模块化轨迹与视频预测(端到端整合运动规划与视觉建模)[2][18] - 引入链式前向训练策略(CoF),解决自回归误差累积问题,FVD指标提升7.4%,支持600帧(2分钟)长视频生成[23][26][29] 技术架构与性能表现 - **解耦设计**:时序建模采用多模态时空Transformer(MST),空间生成采用双-单流DiT结构,支持逐帧自回归生成[20] - **多模态生成**:TrajDiT分支生成3秒连续轨迹(20Hz实时),VisDiT分支生成下一帧图像(4090 GPU上2秒/帧)[21][25] - **基准测试优势**:在NuPlan数据集上FVD降至82.8(优于Vista的89.4),NAVSIM轨迹预测碰撞率0.36%(优于UniAD的0.31%)[29][30] 行业应用价值 - 突破现有世界模型局限:解决传统视频扩散模型固定长度限制(如GAIA-2)与自回归Transformer模型离散token质量损失(如GAIA-1)[15] - 支持实际场景需求:可应用于轨迹控制视频生成(定制化驾驶模拟)和轻量化实时规划(仅启用TrajDiT分支)[21][28] - 参数量2.5B,计算效率优于NVIDIA Cosmos等同类模型,在消费级硬件(4090)上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径,减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向,Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性(如Cosmos限于短视频)与实时规划能力(如Vista缺乏轨迹控制),Epona提供统一解决方案[17][26][32]
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 10:59
核心观点 - GeoDrive是由北京大学、伯克利人工智能研究院与理想汽车联合开发的自动驾驶世界模型系统,首创性地将三维点云渲染过程纳入生成范式,显著提升空间一致性与可控性 [11] - 模型在轨迹跟踪误差上降低42%,视频质量指标(LPIPS/PSNR/SSIM/FID/FVD)全面超越Vista等基线模型,且仅需5小时训练数据(对比基线1740小时) [19][34] - 首次实现实时视觉输入与预测建模的融合,构建支持VLA(视觉-语言-动作)协同规划的交互式仿真环境 [9][10] 技术创新 几何驱动架构 - 采用MonST3R网络从单帧RGB图像精准估计点云和相机位姿,在动态城市场景中减少38%姿态误差 [26][27] - 通过投影几何技术将3D点云沿用户指定轨迹渲染,使用z-buffering处理遮挡,生成几何引导信号 [28][29] 动态编辑机制 - 突破静态渲染局限,通过2D边界框注释调整可移动物体位置,增强多车交互场景的动态合理性 [12][31] - 设计物理引导编辑模块,在明确运动约束下变换代理外观,确保物理合理的交互 [18][31] 训练优化 - 采用冻结主干模型+轻量化适配器架构,仅需5小时训练数据即达到SOTA性能(对比DriveDreamer等模型需1740小时) [8][34][37] - 双分支控制策略:条件编码器提取渲染潜变量特征,以结构化方式选择性融合进冻结DiT主干,保持3D结构保真度 [33] 性能表现 定量指标 - 在NuScenes数据集上,FID指标达4.1(对比Vista 6.6/GEM 10.5),FVD指标61.6(对比Vista 167.7) [37] - 新视角合成任务中,左移3米轨迹的FID 67.13/FVD 1245.23,显著优于StreetGaussian的63.84/1438.89 [40] 定性优势 - 生成视频的光流误差(ADE)仅1.62×10²,较Vista(2.77×10²)降低41.5% [34] - 在遮挡处理和动态物体交互合理性上优于基线,避免Vista模型出现的轨迹错位和碰撞问题 [35][36] 行业意义 - 首次实现驾驶世界模型中实时场景编辑与VLA协同规划,支持动态物体插入/替换/运动控制等交互功能 [9][10] - 为自动驾驶仿真测试提供高保真环境生成方案,解决传统方法在3D几何一致性和遮挡处理上的缺陷 [14][17] - 验证了轻量化适配器+冻结主干的训练范式在数据效率上的突破,降低行业研发门槛 [8][34]