自动驾驶之心
搜索文档
和港校自驾博士交流后的一些分享......
自动驾驶之心· 2025-11-20 08:05
自动驾驶技术社区与资源平台 - 该公众号文章核心是推广"自动驾驶之心知识星球"社区,该社区定位为自动驾驶领域的技术交流与资源平台 [2][6][16] - 社区已运营三年,目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [6][7] - 社区内容形式包括视频、图文、学习路线、问答和求职交流,覆盖40多个自动驾驶技术方向 [6][9][16] 社区成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室 [16] - 企业成员包括蔚小理、地平线、华为、大疆、广汽、上汽、博世等近300家自动驾驶相关公司 [16][95] - 平台与多家自动驾驶公司建立了岗位内推机制,提供简历直推服务 [11] 技术内容覆盖范围 - 社区系统梳理了自动驾驶全技术栈,包括感知、规划控制、仿真、端到端、VLA等40多个方向 [9][16][17] - 具体技术领域包括BEV感知、3D目标检测、多传感器融合、Occupancy Network、轨迹预测、SLAM等 [10][50][52][54][57][58][77] - 涵盖前沿热点如世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、3DGS与NeRF等 [40][42][44][48][38] 学习资源与课程体系 - 社区提供原创视频课程,包括感知融合、多传感器标定、SLAM与高精地图、决策规划等9大系列 [11] - 汇总了近60个自动驾驶数据集、行业主流仿真平台及各类技术学习路线 [16][34] - 设有"自动驾驶100问"系列,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等7个专题 [10] 学术交流与行业洞察 - 定期举办星友面对面交流活动,目前已开展至第四期,邀请学术界和工业界专家探讨技术趋势 [2] - 社区内部经常解答端到端入门、多模态大模型学习路线、数据闭环工程实践等实用问题 [7] - 不定期邀请一线大佬直播分享,目前已举办超过100场专业技术直播 [87] 社区特色服务 - 为初学者提供全栈方向学习课程和技术路线图,适合0基础入门 [10][11][17] - 汇总了国内外自动驾驶高校实验室和公司信息,为升学就业提供参考 [26][28] - 提供快速问答服务,成员可自由提问工作选择、研究方向等实际问题 [89]
理想一篇中稿AAAI'26的LiDAR生成工作 - DriveLiDAR4D
自动驾驶之心· 2025-11-20 08:05
技术突破与核心创新 - 提出名为DriveLiDAR4D的全新激光雷达生成流水线,整合多模态条件与创新的时序噪声预测模型LiDAR4DNet,能够生成时序一致的激光雷达场景[2] - 该技术是首个以端到端方式实现激光雷达场景时序生成并具备全场景操控能力的研究[2] - 核心特征包括融合多模态条件(如场景描述、道路草图和物体先验)以及精心设计的等矩形时空噪声预测模型,确保去噪过程中的空间和时序一致性[8] - 实现了对前景物体的精准操控(包括位置和尺寸调整)以及对背景元素的精细化操控,此为首次[11] 性能表现与行业对比 - 在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%[2] - 在KITTI-360数据集上,DriveLiDAR4D的FRD分数为244.25,显著优于LiDARGen的2040.1和RangeLDM的2022.71[22] - 与现有方法相比,DriveLiDAR4D在时序生成、前景控制、背景控制和物体保真度增强方面均表现优异,而其他方法如RangeLDM和Text2LiDAR存在明显局限性[6][7] - 在nuScenes验证集上,DriveLiDAR4D的MMD分数为2.94(乘以10^4后),远低于LidarDM的25.53和UniScene的21.66[26] 技术细节与模型架构 - 多模态条件包括道路草图(提供道路布局和物体专属信息)、场景描述(通过GPT-4V生成详细背景描述)和物体先验(通过预训练的物体生成模型DiT-3D生成)[14][16][17] - LiDAR4DNet是一种类UNet的编解码器模型,集成了创新的等矩形时空卷积模块和等矩形时空Transformer模块,用于处理时序等矩形图像[18][19][20] - 采用定制化的条件注入策略:道路草图通过通道拼接注入,物体先验利用ControlNet策略,场景描述则采用交叉注意力机制[21] - 去噪过程的迭代次数设为256次[13] 应用价值与行业意义 - 高质量数据是推动自动驾驶人工智能发展的基础要素,该技术旨在解决收集和标注多样化多模态数据集耗时且资源密集的行业痛点[3] - 生成的逼真激光雷达数据能够准确捕捉真实世界多样交通场景,特别是对于开发安全关键型系统至关重要的边缘场景[3][7] - 该技术已中稿AAAI 2026,显示了其在学术界的认可度[2]
跨越“仿真到实车”的鸿沟:如何构建端到端高置信度验证体系?
自动驾驶之心· 2025-11-20 08:05
▍文章来源于 康谋自动驾驶 >> 白皮书免费获取→ 3DGS与4DGS的核心应用实践与技术突破! 01 引言 随着自动驾驶功能复杂度的指数级增长, 单纯依赖道路测试 进行验证的成本高昂、周期漫长且 无法穷尽 所有可能的 边缘场景 。 仿真测试 因此成为研发流程中不可或缺的一环,它能够以低成本、高效率的方式 大规模生成 和 复现高风 险 的" 边缘案例 "与" 关键场景 ",从而加速算法的迭代与验证。 然而,仿真的价值完全取决于其结果的 置信度 。一个高置信度的仿真平台,其输出应在统计意义上与真实世界的传感 器数据、车辆行为和环境交互 保持一致 。若仿真与现实存在显著偏差,那么基于仿真得出的结论将失去意义,甚至产 生误导。 因此,建立一套能够 量化 和缩小这一差距的体系,是当前自动驾驶研发面临的关键挑战。本文将从 工程实践 出发, 系统性地剖析仿真置信度的 三大核心挑战 :传感器模型偏差、静态场景失真和动态场景还原误差,深入分析误差来 源,提出 可量化指标 和 对齐流程 ,为构建 高置信度仿真 提供参考。 02 仿真技术置信度三大核心挑战 传感器模型偏差 传感器是连接虚拟世界与感知算法的桥梁,其模型的 保真度 ...
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 08:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
AI Day直播 | WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成
自动驾驶之心· 2025-11-19 08:03
文章核心观点 - 南开大学等研究团队提出了一种名为WorldSplat的全新前馈式4D驾驶场景生成框架,该框架旨在破解场景生成与重建之间的困境,能够高效生成高保真、时空一致的多轨迹新视角驾驶视频,以支持自动驾驶系统的训练数据扩展 [3][8] 技术背景与现有方法局限 - 现有驾驶场景生成方法大多聚焦于合成多样化、高保真的驾驶视频,但受限于3D一致性不足且视角覆盖稀疏,难以支持便捷且高质量的新视角合成 [3] - 近期的3D/4D重建类方法虽大幅改进了真实驾驶场景的新视角合成效果,但本质上缺乏生成能力 [3] WorldSplat框架概述 - WorldSplat是一个结合生成与重建能力的4D驾驶场景生成框架 [8] - 该方法通过两个关键步骤高效生成具备一致性的多轨迹视频 [3] - 第一步是引入融合多模态信息的4D感知潜在扩散模型,以前馈方式生成像素对齐的4D高斯分布 [3] - 第二步是利用增强型视频扩散模型,对基于这些高斯分布渲染出的新视角视频进行优化 [3] - 该框架可一次性生成多视角、时间空间一致的动态驾驶场景,并支持任意轨迹的新视角视频合成 [8] 技术优势与实验效果 - 在基准数据集上开展的大量实验表明,WorldSplat能够有效生成高保真、时空一致的多轨迹新视角驾驶视频 [3] - 该技术让世界模型具备几何一致性,并实现可控的多视角/多轨迹驾驶场景生成 [10] 相关活动与资源 - 文章预告了由WorldSplat第一作者、南开大学博士生朱子悦主讲的直播,直播时间为11月19日19:30-20:30 [4][8] - 相关论文标题为“WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving”,并提供了论文链接与项目主页 [5]
Physical Intelligence团队正式发布π*0.6
自动驾驶之心· 2025-11-19 08:03
文章核心观点 - Physical Intelligence团队发布了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过从部署经验中学习来实现自我改进 [2][4] - RECAP方法通过整合演示数据、自主收集数据及专家干预数据,采用优势条件机制进行训练,显著提升了VLA模型在复杂现实任务中的性能和鲁棒性 [4][7] - 实验证明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务上,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [7][11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的持续优化 [4][7][13] - 方法通过价值函数估算动作的优势值,并让策略基于此优势值进行条件化训练,从而能从次优数据中提取更优策略 [7][13][16] 模型架构与技术细节 - 研究基于VLA模型PiStar 实例化RECAP,该模型是在Star 基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制 [8][14] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略,模型架构包含860M参数的动作专家 [8][14][18] - 价值函数采用670M参数的视觉-语言模型作为骨干网络,从Gemma 3 4B模型初始化,用于预测任务成功的剩余步数 [14][19] 实验任务与性能评估 - 评估任务包括三大类:衣物折叠(简单T恤/短裤、多样化11种物品)、使用商用意式咖啡机制作饮品、以及真实工厂场景的纸箱组装 [23][24][25] - 在最具挑战性的多样化衣物整理和咖啡制作任务中,RECAP使任务吞吐量提升超过两倍,故障率降低两倍或更多 [28][30] - 经过RECAP训练的策略展示了卓越的鲁棒性,例如连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断 [10] 训练流程与数据整合 - 训练流程包含预训练、基于演示数据的监督微调、以及多轮自主数据收集与强化学习优化的迭代循环 [21][22] - 数据整合策略独特,既包含完全自主收集的片段,也包含由专家遥操作员监控并可进行修正干预的片段,用于克服探索挑战和修正重大错误 [22] - 价值函数和策略在每轮迭代中均从预训练检查点进行微调,而非持续微调上一轮模型,这有助于避免多轮迭代中的性能漂移 [22] 方法比较与优势 - 在衣物整理任务中,采用RECAP方法的模型实现的吞吐量远超AWR和PPO等传统策略提取方法,展现出显著优势 [35] - RECAP方法能有效消除在严格成功标准下被视为失败的特定故障模式,仅需相对较少数据即可有效调整策略行为 [35] - 尽管构建于已有研究中的独立算法模块之上,但RECAP独特的组合方式具有创新性,首次证明了通用强化学习方案能显著提升VLA模型的实战性能 [10]
自动驾驶之心企业服务与咨询正式推出啦!
自动驾驶之心· 2025-11-19 08:03
公司业务发展 - 公司业务重心从专注C端市场转向正式推出企业服务,以满足企业客户在品牌宣传、技术咨询、培训、团队升级等方面的需求 [1] - 公司在创业前两年已为自动驾驶与具身智能领域研发了近50门课程,积累了近3年的行业咨询与培训经验 [1] - 公司全平台粉丝数量接近40万,并储备了大量专家人才库 [1] 企业服务内容 - 公司提供的企业服务具体包括品牌宣传、产业咨询、技术培训和团队升级 [5] - 公司旨在通过其服务助力合作客户实现技术路线的升级、团队人员的升级,并提供更多决策参考 [1] 行业合作与影响 - 公司已与国内多个高校、职业院校、Tier1供应商、主机厂以及具身机器人公司建立了企业合作关系 [2] - 公司期望通过其服务触达更多需要升级的企业,以推动整个自动驾驶与具身智能领域的进步 [2]
做自动驾驶VLA的这一年
自动驾驶之心· 2025-11-19 08:03
文章核心观点 - 视觉-语言-动作模型是一种整合视觉、语言和动作输出的多模态基础模型,旨在实现从感知到控制的端到端自动驾驶 [4][5][7] - VLA模型被视为继模块化流水线、端到端模型和视觉语言模型之后的下一代自动驾驶范式,能够解决传统方法在可解释性、泛化能力和行动执行方面的不足 [9][10][11] - 行业主流算法供应商和主机厂均在积极布局VLA技术,理想汽车和小鹏汽车已实现VLA模型的量产上车,标志着该技术从学术研究走向工业应用 [3][60][67] VLA定义与概念 - VLA模型被定义为"多模态大脑",能够处理图像或视频输入、语音或文字指令,并直接输出低层机器人动作或高层决策 [4][5][7] - 模型输入包括视觉画面、传感器数据和语言指令,输出可分为低阶控制信号和高阶轨迹规划两类 [13][16][18] - 以自动驾驶车辆为例,VLA不仅能执行驾驶任务,还能解释行为原因并理解人类自然语言指令,实现"看、想、做"的统一 [8] VLA出现背景与发展阶段 - 自动驾驶技术演进分为四个阶段:模块化流水线、端到端模型、视觉语言模型和VLA模型,VLA的出现旨在解决前代技术死板、黑箱或缺乏直接行动能力的问题 [9][10][11] - VLA模型继承大模型语义先验,能够借助常识推理处理罕见长尾场景,提升系统在复杂环境下的适应性和安全性 [10] VLA架构拆解 输入端 - 视觉输入包括前向和环视摄像头图像,常转换为BEV或体素表示以理解空间关系 [13] - 传感器输入涵盖LiDAR、RADAR、IMU和GPS,与视觉数据互补提升系统鲁棒性,部分企业如小鹏采用纯视觉方案 [13] - 语言输入支持导航指令、问答交互和规则约束,未来可能扩展至车内自然对话 [13] 中间层 - 视觉编码器使用DINOv2、ConvNeXt-V2、CLIP等预训练模型提取特征,部分模型进行跨模态对齐 [14] - 语言处理器基于LLaMA、GPT等LLM变体,通过指令微调、LoRA、RAG等技术适配驾驶场景,具备链式思维推理能力 [14] - 动作解码器采用序列预测、扩散模型或分层控制结构生成轨迹或控制信号 [14][15] 输出端 - 低层输出直接控制油门、刹车、方向角等执行器,保证即时反应速度 [18] - 高层输出规划未来2-5秒连续路径,便于与现有自动驾驶系统融合 [18] VLA发展编年史 LINGO系列(Wayve) - LINGO-1(2023年9月)首次将自然语言引入自动驾驶,具备可解释驾驶、视觉问答和驾驶知识推理能力,但功能以评论动作为主 [20][21][22][23] - LINGO-2(2024年10月)实现指令跟随和交互式驾驶,能理解并执行"在下一个路口右转"等自然语言指令,标志语言与驾驶深度结合 [35][36][37] CarLLaVA(2024年6月) - 基于视觉语言模型的端到端系统,仅使用摄像头输入,在CARLA挑战赛中获得第一名,为纯视觉方案提供实践基础 [25][26][27] CoVLA(2024年8月) - 提出包含超过80小时驾驶场景的大规模多模态数据集,通过自动化流程生成视觉、语言和行动标注,解决数据稀缺问题 [31][32] SimLingo(2025年3月) - 强调语言与行动对齐,通过"Action Dreaming"任务确保指令理解直接影响决策,在CARLA仿真器中达到顶尖性能 [39][40][42][46] OpenDriveVLA(2025年3月) - 融合多视角图像、3D环境信息和驾驶指令,采用分层特征对齐和交互建模,在nuScenes数据集上实现最优轨迹预测 [44][48][51] DriveMoE(2025年5月) - 引入混合专家模型,动态选择摄像头视图和驾驶技能专家,提升计算效率和复杂场景处理能力 [52][53] AutoVLA(2025年5月) - 结合自适应推理与强化微调,支持"快速思维"和"慢速思维"双模式,在多个数据集上实现优越的推理与轨迹生成性能 [55][56][57] 主机厂VLA方案 理想汽车MindAVLA - 采用MoE架构和3D高斯表达,具备思维链推理和扩散轨迹生成能力,通过三阶段训练模拟人类学习过程 [60][62][63][65] - 已实现量产上车,依托自研推理引擎和INT4量化技术完成车端部署 [65] 小鹏汽车VLA 2.0 - 实现端到端直连,跳过语言转译环节直接生成驾驶动作,建立统一智能基底支持多设备驱动 [69] - 训练数据接近1亿段真实驾驶视频,基础模型参数量达720亿,每5天完成一次全链路更新 [69]
研二多发几篇论文,也不至于到现在这个地步……
自动驾驶之心· 2025-11-18 08:05
文章核心观点 - 当前研究生面临严峻的就业与申博压力 需要高质量科研成果作为核心竞争力 而许多学生因导师指导不足在论文产出上遇到困难 为此 自动驾驶之心平台推出了专业的论文辅导服务 旨在帮助学生高效产出高质量论文 从而提升其学业与职业发展前景 [1][4][7] 服务提供方背景与资源 - 服务提供方为国内最大的AI类技术自媒体平台 旗下拥有自动驾驶之心 具身智能之心 3D视觉之心等多个IP [4] - 平台深耕自动驾驶 具身智能 机器人等交叉学科领域多年 深刻理解相关挑战与机遇 [4] - 平台拥有国内顶尖的学术资源 师资团队超过300名专职老师 均来自全球QS排名前100的院校 并发表过多篇顶会或子刊论文 [6] - 平台近3年已辅导学员超过400名 声称中稿率高达96% [6] 服务内容与流程 - 提供从选题到中稿的一站式科研辅导服务 目标期刊覆盖CCF-A/B/C SCI1-4区及EI会议等 [14] - 标准辅导流程为期约12周 具体包括 第1周确定3个备选课题 第2-3周完成文献综述与框架搭建 第4-6周进行实验设计与数据收集 第7-8周完成初稿 第9-10周修改润色 第11-12周选刊投稿 [5] - 服务形式包括腾讯会议在线1对1授课 日常微信群沟通答疑 并提供录播无限次回看与免费课后答疑 [14][19] - 配备班主任进行全程督学 跟进学习进度 [17] - 对于零基础学员 平台提供基础课程供自主学习 声称跟随导师节奏6个月可完成一篇小论文 [20] 服务解决的问题与目标客户 - 主要解决导师放养 无人指导 科研知识体系零散 缺乏科研思维与流程经验等问题 [11] - 旨在帮助学生系统掌握经典与前沿算法 将模型理论与代码实践结合 并将基线模型深化拓展以形成自己的论文 [11] - 目标客户包括 在读计算机相关专业硕博生 有科研需求以提升职称或学术成就的人员 人工智能领域希望升职加薪的从业者 以及计划考研 申博 留学需要提升简历含金量的学生 [12] 服务附加价值与保障 - 除论文辅导外 优秀学员有机会获得清北 MIT等名校推荐信 或被推荐至相关实验室实习 表现突出者可获内推至阿里达摩院 华为诺亚方舟等企业研发岗位 [21] - 提供导师精准匹配系统 根据学员研究方向 目标期刊和基础水平 从300多名导师中筛选3至5位供学员选择 [20] - 提供预付费试听机制 承诺试听不满意可免费更换老师或退款 [21]
具身界影响力最大的两位博士创业了!
自动驾驶之心· 2025-11-18 08:05
创业团队核心成员 - Tony Z Zhao担任公司CEO 为斯坦福大学计算机科学专业三年级博士生(已辍学) 在校期间主导提出ALOHA ALOHA2 Mobile ALOHA等一系列具身智能领域有影响力的工作方案 [2][4][5] - Cheng Chi担任公司CTO 为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者 师从Shuran Song教授 提出通用操作接口UMI(获RSS 2024最佳系统论文决赛奖)及Diffusion Policy方案 [2][4][10] 行业背景与影响力 - 创业团队两位成员被描述为具身界影响力最大的博士 其技术背景与研究成果在行业内具有显著知名度 [2][4] - 公司技术基础建立在ALOHA系列方案 UMI通用操作接口及Diffusion Policy等前沿研究之上 这些工作对机器人操作与具身智能发展有重要贡献 [4][5][10]