自动驾驶之心
搜索文档
为什么前馈GS引起业内这么大的讨论?
自动驾驶之心· 2025-12-28 17:23
特斯拉自动驾驶技术方向 - 特斯拉在ICCV的分享指明了智能驾驶下一阶段发展方向为端到端+生成式3D高斯泼溅[2] - 特斯拉的实践基本可以判断是基于前馈式3D高斯泼溅算法实现的[2] 3D高斯泼溅技术演进路线 - 技术发展路线明确:从静态重建3DGS演进至动态重建4DGS,再到表面重建2DGS、场景重建混合GS,最终到前馈GS[3] - 前馈式3D高斯泼溅因能摆脱以往单场景优化的弊端,训练、推理、测试在一个统一架构内而受到国内重视[3][6] - 该技术可实现百毫秒级别的实时性,这是以往重建算法难以达到的水平[6] - 该技术可与世界模型结合,通过生成+重建打造更优的闭环仿真能力[6] 行业培训课程核心内容 - 课程旨在全面讲解3D高斯泼溅技术栈,从原理到实战细致展开[3] - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等主流工具,附带基于3D Real Car训练模型的小作业[8] - 课程第二章深入3D高斯泼溅原理与算法,涵盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - 课程第三章聚焦自动驾驶仿真重建,解析Street Gaussian、OmniRe和Hierarchy UGP三篇核心工作,实战选用DriveStudio框架[10] - 课程第四章探讨3D高斯泼溅重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业界应用与学术前景[11] - 课程第五章专讲前馈式3D高斯泼溅,梳理其发展历程与原理,并讲解AnySplat和WorldSplat两篇最新算法工作[12] - 课程第六章为线上答疑讨论,涉及3D高斯泼溅岗位需求、行业痛点及开放性问题[13] 课程安排与面向人群 - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学与VIP群答疑结合模式[15] - 课程章节按计划解锁:第一章于12月1日解锁,第二章于12月7日解锁,第三章于1月7日解锁,第四章于1月21日解锁,第五章于2月4日解锁[15] - 课程面向具备一定计算机图形学、视觉重建、NeRF、3D高斯泼溅基础知识,以及概率论、线性代数、Python和PyTorch基础的学习者[17] - 学习者需自备GPU,推荐算力在RTX 4090及以上[17] - 完成课程可掌握3D高斯泼溅完善的理论知识及相关技术栈、算法开发框架,并能与学术界及工业界同行持续交流[17]
百度X-Driver:可闭环评测的VLA
自动驾驶之心· 2025-12-28 11:30
文章核心观点 - 哈工大与百度联合提出的X-Driver是一个专为闭环自动驾驶设计的统一多模态大语言模型框架,其核心创新在于利用思维链推理和自回归建模来增强感知与决策,旨在解决现有基于MLLM的自动驾驶方案在闭环评估中成功率低、存在幻觉和缺乏稳定轨迹输出的问题 [2][3] 方法架构 - 系统利用集成思维链推理机制的多模态大语言模型来执行场景理解、导航指令解释和交通规则理解 [6] - 输入为摄像头图像数据以及表示导航命令和提示的文本,输出为思维链推理过程和最终的驾驶决策 [6] - 系统以闭环方式运行,执行的动作影响环境并生成新的感知数据以进行持续优化 [7] 核心模型与技术细节 - 模型基于LLaVA架构,使用CLIP的ViT-L/14图像编码器提取图像特征,并通过映射网络将其对齐到文本嵌入空间,再输入微调后的LLaMa网络 [9] - 采用连续图像编码方法,避免使用VQ-VAE等离散编码方法导致的关键信息丢失,例如能更有效地保留远处红绿灯的信息 [13][14] - 通过监督微调整合高质量的思维链提示数据,将驾驶任务分解为对象检测、红绿灯状态、交通标志和车道信息等子任务,鼓励模型进行结构化逻辑思维 [11][12][17] 训练与推理过程 - 监督微调训练涵盖对复杂3D驾驶环境的精确感知,包括动态物体的位置、速度、轨迹预测,以及实时障碍物识别和空间定位 [15] - 训练还包括对导航指令的深入理解和对交通法规的遵守,如识别各类交通信号灯状态、解读监管/警告/信息标志,以及准确的车道检测与决策 [15] - 推理时,模型对单帧图像和当前车速进行多模态融合分析,在思维链提示指导下,逐步推理对象位置、类别、关注必要性,并据此更新最终驾驶决策 [18][20][23] 闭环仿真实验与性能评估 - 在CARLA仿真环境中使用Bench2Drive数据集进行闭环测试,该数据集包含超过200万帧仿真数据,用于评估城市、高速公路及恶劣天气等不同条件下的性能 [8][27] - 评估关键指标为驾驶评分和成功率,驾驶评分综合考虑路线遵守、速度控制和交通规则合规性,成功率衡量无碰撞或重大违规完成任务的百分比 [28] - 定量结果显示,在Bench2Drive数据集上,使用500K和2.2M样本与UniAD对比,整合思维链推理的X-Driver版本在驾驶评分和成功率上均有提升 [29] - 具体数据表明,在bench2drive220任务中,UniAD的成功率为17.5%,而X-Driver无思维链版本为15.2%,整合思维链的版本提升至18.1% [30] - 在bench2drive50任务中,UniAD成功率为22.0%,X-Driver无思维链版本为19.8%,整合思维链的版本提升至24.0% [30] 现状总结与行业洞察 - 当前在闭环仿真器上的自动驾驶成功率仍处于较低水平,约为20%左右 [30][31] - 使用仿真数据测试与现实世界存在差距,不能完全反映实际性能 [31] - 目前行业倾向将多模态大语言模型结合思维链推理生成的驾驶决策,作为慢系统中规划轨迹的初始解,用以加速下游的规划搜索过程,而非直接用于控车 [31]
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 11:30
文章核心观点 - 2025年是自动驾驶从“感知驱动”向“空间智能”全面转型的分水岭[3] - 空间智能是对空间信息进行感知、表征、推理、决策与交互的综合能力,是将三维物理空间信息转化为可计算模型的核心基础[3] - 当前空间智能技术更多停留在感知和表征层面,在深层次的推理决策和交互能力上仍有待突破,因此存在大量发展机会[3] 世界模型在重构物理世界的“预演能力” - **GAIA-2 (Wayve)**: 一种面向自动驾驶的多视图生成式世界模型,通过潜在扩散技术,以自车动力学、道路语义及多智能体交互为控制条件,生成符合物理规律且时空一致的驾驶视频,为破解长尾效应提供数据闭环方案[5] - **GAIA-3 (Wayve)**: 模型规模较GAIA-2提升5倍,旨在通过捕获细粒度时空上下文来表征现实世界的物理因果结构[9] - **GAIA系列空间突破**: 通过潜在扩散模型和超高空间压缩比,实现了多相机视角下的时空一致性,构建了具备物理常识的“沙盒”,解决了空间扭曲问题[10] - **ReSim**: 通过将真实世界专家轨迹与模拟器生成的非专家/危险行为数据进行异构融合,利用扩散Transformer架构实现了对极端与罕见驾驶行为的高保真、强可控模拟[11] - **ReSim空间突破**: 解决了AI对极端空间状态的认知缺失,让AI学会“撞车瞬间的空间演变”,实现了对高风险物理交互的高保真模拟[12] 多模态推理实现从“语义描述”到“几何推理” - **SIG**: 提出“空间智能网格”结构化图谱方案,通过将场景布局、物体关系及物理先验显式编码为网格语义,替代传统纯文本提示,并建立SIGBench基准,旨在解决多模态大模型依赖语言捷径、缺乏真实几何推理能力的难题[16] - **OmniDrive**: 通过引入“反事实推理”生成大规模3D问答数据集,并配合Omni-L/Q代理模型,实现了视觉语言模型从2D认知向3D空间理解与规划的深度对齐[19] - **OmniDrive空间突破**: 引入“反事实推理”,弥补了语言逻辑与物理轨迹之间的鸿沟,让VLM能够真正理解三维环境下的风险评估[19] - **SimLingo**: 一款基于通用视觉语言模型且仅依赖摄像头的闭环自动驾驶系统,通过引入“动作梦境”任务解决了言行不一的难题,实现了驾驶行为与语义指令的高度对齐[21] - **SimLingo空间突破**: 提出“动作梦境”任务,AI必须预测出精确的物理执行信号,证明了通用大模型在理解复杂城市空间后的实时决策潜力[24] 三维物理实体的“实时数字孪生” - **DrivingRecon**: 一款通用型4D高斯重建大模型,通过直接从环视视频中预测4D高斯参数,并结合创新的PD-Block空间优化与动静解耦技术,实现了高效、高保真的自动驾驶场景动态重建与多任务仿真[26] - **DrivingRecon空间突破**: 实现了端到端4D高斯重建,通过“动静解耦”技术精准捕捉路面背景与动态障碍物的几何特征,提供了近乎实时的物理环境数字孪生[26] - **VR-Drive**: 通过引入“前馈3D高斯泼溅”作为辅助任务,实现了无需逐场景优化的在线新视角合成,显著增强了智驾系统在不同相机配置和视角偏差下的鲁棒性[29] - **VR-Drive空间突破**: 解决了硬件适配痛点,即使相机安装角度偏了5度,AI也能通过空间想象力补齐偏差,确保感知与规划在不同物理配置下的稳定性[29] 具身融合——打破“车”与“人”的空间隔阂 - **MiMo-Embodied (小米)**: 全球首个开源跨具身通用大模型,通过多阶段学习、思维链及强化学习微调,首次实现了自动驾驶与具身智能两大领域的深度融合[31] - **MiMo-Embodied空间突破**: 实验证明车辆对宏观交通流的空间感知可增强机器人导航,而机器人对微观物体交互的理解能反哺车辆决策,标志着自动驾驶被纳入“具身智能”版图[32] - **DriveGPT4-V2**: 一款基于多模态大语言模型的闭环端到端自动驾驶框架,通过多视角视觉标记器融合环视图像与车辆状态,并引入专家LLM进行在线模仿学习,实现了能够直接输出底层控制信号的高性能、可解释驾驶决策系统[36] - **DriveGPT4-V2空间突破**: 从“看图说话”进化到“闭环控制”,AI在环视视野中保持高局部空间细节,直接输出转向、加速等底层物理指令,实现了端到端空间智能的闭环落地[37] 工业界架构演进与共识 - **行业共识**: 2025年工业界在自动驾驶架构设计上达成高度共识,即从传统的模块化架构向端到端的VLA架构演进,旨在利用大语言模型的常识推理能力辅助驾驶决策[40] - **Waymo的EMMA与通用基础模型**: Waymo展示了其端到端多模态模型EMMA,该模型构建在Gemini等大规模预训练模型之上,直接将原始摄像头传感器数据映射为驾驶轨迹、感知对象和道路图元素,其核心理念是将所有非传感器输入和输出均表示为自然语言文本[41] - **Waymo的快速与慢速思考架构**: 提出“快速思考与慢速思考”架构,传感器融合编码器负责快速反应性动作,驾驶VLM负责处理复杂的语义推理,例如能通过语义分析命令车辆绕行路面起火等罕见场景[41] - **DeepRoute.ai与可解释的VLA**: 元戎启行推出的DeepRoute IO 2.0架构核心优势在于引入思维链推理,有效解决了端到端模型的“黑盒”问题[43] - **DeepRoute IO 2.0能力**: 系统不仅能执行驾驶动作,还能通过语言模型解释其决策路径,具备强大的空间意识和光学字符识别能力,能实时解读复杂路牌和临时交通指令[44] - **统一具身智能趋势**: MiMo-Embodied的出现标志着自动驾驶与具身机器人在空间智能层面的合流,该模型在12项自动驾驶基准测试及17项机器人基准测试中均创造了新记录[45] - **理想汽车的MindVLA**: 引入了空间智能概念,主要体现在3D Feature上,视觉和Lidar经由3D Encoder得到时序融合后的特征,再经由3D projector传递到下游的MindGPT中[45]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-28 11:30
行业整体动态与竞争格局 - 自动驾驶行业在整体市场下沉的关键节点竞争激烈 各公司卷技术 卷成本 卷效率 [1] - 行业公司业务模式呈现多元化发展 例如从线上服务拓展至线下 从服务C端用户转向同时拓展B端客户 [1] - 面向消费者的服务内容正从普适性内容向专业化 精细化方向演进 [1] 人才市场与流动趋势 - 自动驾驶算法人才在就业市场非常受欢迎 大量人才从自动驾驶领域流向具身智能 无人机等新兴行业 [1] - 多家头部企业为自动驾驶算法人才提供具有竞争力的薪资 例如大疆 宇树 智元 哈啰等公司 [1] - 自动驾驶领域从业者因具备使用大规模计算集群 解决各种极端案例以及强大的上下游协同能力而备受其他行业青睐 [2] - 预计明年自动驾驶行业中游厂商将释放大量职位 [3] 核心技术发展方向 - 行业头部技术收敛于几个明确方向 包括一段式端到端模型 视觉语言动作模型 世界模型以及强化学习 [3] - 行业中游厂商当前技术攻坚重点集中在占用网络 无图化技术以及多传感器融合感知等领域 [3] 行业生态与信息平台 - 自动驾驶之心付费社区成员数量已正式突破4000人 该平台提供技术路线发展 行业圆桌讨论 研究报告及职位信息等内容 [3]
想了很久,还是得招人一起把事情做大(部署/产品方向)
自动驾驶之心· 2025-12-27 17:36
行业动态与平台定位 - 行业已进入L2智能驾驶下半场 面临难点与痛点 需要更多参与者共同突破[2] - 公司作为国内自动驾驶领域技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台[2] 平台发展规划 - 公司将增加圆桌访谈、实战与工业级课程、咨询等多种形式的内容输出[2] - 平台主要面向自动驾驶培训合作 B端面向企业、高校及研究院所 C端面向学生及求职人群[5] - 平台业务包括课程开发和原创文章创作[5] 人才招募方向 - 公司招募优秀伙伴加入 合作方向包括自动驾驶产品经理、4D标注与数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向[4]
Waymo最近的基座模型分享:快慢双系统端到端 & 世界模型仿真
自动驾驶之心· 2025-12-27 17:36
Waymo的整体人工智能战略与方案 - 公司正通过将“可验证安全的人工智能”置于核心优先级来攻克自动驾驶挑战,安全是从底层设计模型与生态系统的核心准则[2] - 公司已打造出一套极其先进的人工智能系统,并实现大规模安全落地于物理世界,完全自动驾驶里程已远超1亿英里[2] - 在运营区域,与人类驾驶员相比,严重事故发生率降低了十倍以上[2] - 公司的人工智能战略旨在让安全的自动驾驶服务以史无前例的速度惠及更多用户[2] Waymo基础模型架构 - Waymo基础模型是一款多功能、顶尖的“世界模型”,为整个人工智能生态系统提供动力[7] - 其创新架构相比纯粹的端到端方案或模块化方案具备显著优势[7] - 模型充分利用习得嵌入的强大表达能力,作为模型各组件间的丰富交互接口,并支持完整的端到端信号反向传播[7] - 额外的紧凑、具象化的结构化表示可实现特定功能[7] - 模型采用“快速反应与深度思考”架构,包含两个不同的模型组件[9] - 两个编码器的输出接入世界解码器,该解码器利用输入数据预测其他道路使用者行为、生成高清地图、规划车辆轨迹,并为轨迹验证提供信号[10] 人工智能生态系统:驾驶员、仿真器与评估器 - 基于整体方案,Waymo基础模型为“驾驶员”、仿真器和评估器提供动力[11] - 公司首先将基础模型适配三大任务,训练出大型、高质量的教师模型[11] - 通过安全的模型蒸馏技术,将大型教师模型转化为更小、更高效的学生模型,以在车辆上实时运行或在云端高效处理任务[11] - 模型蒸馏是关键环节,能在保留大型模型卓越性能的同时,得到更紧凑、高效的版本,并实现更优的缩放定律[11] 驾驶员系统 - 教师驾驶模型经过训练,能够生成安全、舒适且合规的动作序列[13] - 通过蒸馏技术,将其丰富的世界理解能力和推理能力迁移至更高效的学生模型,用于车载实时部署[13] - 车载架构设计与Waymo基础模型的结构保持一致[13] - 自动驾驶系统配备了独立且严格的车载验证层,用于验证其生成式机器学习模型所规划的行驶轨迹[13] 仿真器系统 - 仿真器是自动驾驶系统闭环训练和测试的核心工具,可覆盖各类多样化、高难度场景[15] - 仿真器教师模型能够创建高保真、多模态的动态虚拟世界,用于评估“驾驶员”[15] - 学生模型是大型模型的计算高效版本,专为满足大规模仿真任务而设计[16] - 基础模型的架构支持将紧凑的具象化世界状态表示与传感器仿真无缝结合,打造出大规模、超逼真、物理层面准确且计算高效的虚拟环境[16] - 通过对全局场景元素使用文本提示,同时对动态元素进行语义条件约束,能够将真实世界场景转化为高度逼真的仿真场景[17] 评估器系统 - 顶尖评估系统旨在对Waymo自动驾驶系统进行压力测试,主动识别细微的边缘场景,并支持快速、有针对性的改进[17] - 评估器教师模型能够分析驾驶行为并生成高质量的反馈信号,用于训练学生模型和自动构建评估数据集[17] - 评估器学生模型会分析驾驶日志,识别有趣或有问题的场景,并对驾驶质量提供细致的反馈[17] 持续学习与优化的飞轮效应 - Waymo自动驾驶系统的演进得益于多种机制的协同作用,形成了持续学习与优化的飞轮效应[18] - 内部学习循环由仿真器和评估器提供动力,利用强化学习在安全可控的仿真环境中对“驾驶员”进行大规模训练[18] - 外部学习循环基于真实道路驾驶数据,形成了更强大的学习飞轮[18] - 外部循环始于评估器从海量的完全自动驾驶经验中自动标记出任何次优驾驶行为,随后生成改进后的替代行为作为训练数据,在仿真器中严格测试并由评估器验证,最终经安全框架确认后部署到真实道路[18] - 这一飞轮效应的实现得益于公司多年来积累的海量完全自动驾驶数据,且数据仍在以指数级速度持续增长[20] - 目前,公司的完全自动驾驶里程已远超人工驾驶数据量[20] - 庞大的真实世界完全自动驾驶经验是无可替代的,将其直接融入独特的飞轮体系,使系统能够从自身海量经验中学习,实现持续优化[20] 行业技术趋势与定位 - 基本上可以断定Waymo在跟随国内的快慢双系统端到端方案,和理想的E2E+VLM以及小鹏VLA2.0有相似之处[2] - 公司通过采用整体人工智能方案并构建学习飞轮,不仅在推动自身自动驾驶系统的进步,更在树立大规模安全自动驾驶的行业标准[21]
没有好的科研能力,先别想着毕业去业界搞自驾了......
自动驾驶之心· 2025-12-27 10:07
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 柱哥周末和几位做自驾招聘的朋友聊天,说到现在市场上高端的自驾人才仍然非常抢手。 几家新势力还有头 部的Tier 1,硕士已经开到70的年包争抢人才(非天才少年、未来星等顶级岗位)。 很多同学,尤其是在工业 界参与过预研岗位的同学,还没毕业就已经被公司内定了。但其实要求不是很高,那就是"具备完整的科研能 力",能对应完成和思考相应工作。如果缺乏这个,不敢轻易推荐给企业。 完整的科研能力代表能发现问题、定义问题、提出解决问题的方法、能形成方法论输出观点。这并不是简单的 读论文,很多同学都错判了这点。 老师放养,不熟悉自驾方向,需要自己一点点调研,没人指导; 入门了能看懂论文,但不知道领域的痛点、难点,; 没有算力,没有数据、没有改进方向一直原地打转; 实验不知道如何设计,做不出效果,缺乏解决问题的能力; 不知道怎么写论文; ...... 提供的服务 中稿率很高哦! 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预 ...
最近的蔚来,让人倒吸一口凉气
自动驾驶之心· 2025-12-27 10:07
文章核心观点 - 2025年是蔚来公司的转折之年和拐点之年,公司通过组织变革、技术兑现和产品聚焦,实现了从“务虚”到“务实”的经营转变,销量和交付量迅猛增长,正朝着第四季度盈利的终极目标迈进 [6][16][33][48] 全新ES8与乐道L90的交付表现 - 全新ES8交付突破3万台,创造了40万元以上纯电车型交付破三万的最快纪录,并正迈向4万台 [9] - 全新ES8上市41天交付突破1万台,上市70天突破2万台,上市89天突破3万台 [18] - 全新ES8目前能做到19天交付1万台新车,平均每天交付527台,表明已完成产能爬坡 [21] - 乐道L90首个完整交付月交付10,575辆,上市86天交付突破30,000台,连续四周跻身大型SUV周销量TOP3 [17] - 乐道L90在8月份上市首月交付超1万台,打破了纯电大型SUV细分市场月销普遍低于万台的行业常态 [29] 公司整体销量与财务目标 - 截至11月30日,公司累计交付量已达95万台,距离百万里程碑仅一步之遥 [13][14] - 第三季度交付量达87,071辆,同比增长40.8% [20] - 11月公司交付36,275辆,同比增长76.3%,其中蔚来品牌交付18,393台,连续四个月增长 [20] - 11月乐道品牌交付11,794台,同比增长132.1%;萤火虫品牌交付6,088台,连续四个月创历史新高 [20] - 公司目标是在第四季度交付12万到12.5万台以实现盈利,10月和11月已累计交付76,672台 [22][23] 组织变革与经营策略 - 公司今年以“生长”为主题,通过推行CBU(核心经营单元)机制重塑了体系架构,将业务划分为12个核心经营单元,每个单元需对经营结果负责 [10][25] - 经营逻辑转变为“低效的投资少做,高效的投资坚决做”,从务虚转向务实,提高经营效率 [25] - 公司在渠道统一管理、节省开支等方面做出改变,但对纯电、换电、用户导向、长期主义等根本战略坚持不变 [25][26] - 乐道L90和全新ES8的成功,证明了公司已拥有持续的爆品输出和承接能力 [30] 产品毛利率与盈利前景 - 乐道L90和全新ES8的毛利率均在15%-20%之间 [30] - 在爆款车型带动下,产品均价被拉高,“高价值、高毛利”的特点强化了公司的盈利能力 [20] - 公司预计第四季度销量将持续走高,整车毛利持续提升,维持高质量经营,对实现Q4盈利目标充满信心 [31] 市场趋势与行业拐点 - 2025年被视作新能源汽车市场的拐点时刻,新能源车企吹响了反攻号角 [34][35] - 今年9月,中国纯电大三排SUV单月销量达35,530台,首次超越增程、插混和燃油同类车型 [36] - 30万元以上市场中,纯电动车渗透率从去年的12%升至今年三季度的18%,该价位段纯电动车销量同比增长33%,而增程式汽车同比下滑10% [36] - 11月纯电大三排SUV销量在全新ES8、乐道L90等车型推动下,已连续三个月排名所有动力形式第一 [39] - 全国公共充电桩已超500万根,高速公路服务区充电桩覆盖率超90%,充电焦虑得到极大缓解 [42] 技术、基建与未来产品规划 - 公司坚持在智驾芯片、充换电基建、全域整车操作系统等领域重金投入 [26] - 全国换电站数量达3,631座,已完整覆盖全国主要公路网络,包括318国道 [44] - 2026年上半年,全新ES8和乐道L90仍处于新车周期 [44] - 2026年计划发布三款大车:乐道L80、蔚来ES9以及换代ES7,按二季度两款、三季度一款的节奏推出 [44] - 公司正在大力拓展海外经销商,目前已有数十家确定合作伙伴,乐道和萤火虫品牌也将逐步进入全球市场 [45]
哼哧哼哧搞了小半年,小结一下这段时间世界模型的学习成果
自动驾驶之心· 2025-12-27 10:07
世界模型的概念与分类 - 世界模型并非单一模型或范式,而是多个不同研究方向的总称,需要仔细辨析其具体含义 [3] - Jurgen Schmidhuber在2018年提出的世界模型定义为“a mental model of the world”,即世界在大脑中的映射,它关注图像等输入在大脑中形成的概念与关系,并需反映物体在空间和时间上的关系 [4] - Yann LeCun提出的世界模型强调常识知识,其作用不仅在于预测未来结果,还能填补时空上的缺失信息 [7] - 生成式世界模型是对真实世界的物理建模,关注对世界的直接仿真与重构,评价标准通常使用SSIM等指标,这与关注抽象概念联系、以完成任务为标准的心理世界模型有本质区别 [11] - 目前尚无定论何种模型是真正的世界模型,生成式模型模仿GPT思路,认为海量数据能涌现智能;Jurgen的模型是对基于模型的强化学习的重新包装,但面临真实世界动作难以获取的局限;LeCun的模型则缺乏对动作的建模,导致任务迁移困难 [12] 自动驾驶轨迹预测任务设定 - 研究使用nuScenes数据集进行开环评估,该数据集包含1000段、每段20秒的驾驶场景,采集自波士顿和新加坡,涵盖复杂交通状况,总计约140万张相机图像、39万次激光雷达扫描和140万次毫米波雷达扫描 [13] - 轨迹预测任务要求模型根据6个摄像头的视觉信息和指令,预测车辆未来轨迹,关键评估指标包括L2距离和碰撞率 [14] - L2距离指标计算预测轨迹与真实轨迹之间各航点的平均欧氏距离,单位为米,数值越低越好 [14] - 碰撞率指标通过检查预测轨迹在3秒内是否与标注物体发生几何重叠来计算,以百分比表示,数值越低越好 [15] 基于世界模型的轨迹预测方法:LAW - 论文《Enhancing End-to-End Autonomous Driving with Latent World Model》提出了一种极简的世界模型方法,仅通过预测下一时刻的潜变量来增强轨迹预测 [17] - 方法使用编码器将6个摄像头的图像编码为36个视觉标记,并以航点作为条件来预测下一时刻的潜变量 [19] - 框架包含感知无关和感知相关两种编码器结构,以感知无关为例,流程为图像特征 -> 潜变量 -> 航点,航点解码器为每个样本生成三条轨迹,并根据指令选择正确轨迹 [20][22] 基于世界模型的轨迹预测方法:World4Drive - 论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》对LAW进行了改进 [23] - 核心改进包括:将轨迹离散化为8192条预设轨迹;使用k-means算法为每个指令构建6个意图点,进行粗筛;使用潜变量编码器结合时空信息进一步精炼轨迹 [23] - 潜变量编码器通过3D空间编码为图像标记添加深度信息,并通过跨注意力机制聚合时间信息,生成丰富的世界潜表征 [24][27] - 规划阶段通过动作编码将意图转化为对应动作,并构建意图感知的世界模型进行预测,在推理时使用一个评分网络选择最佳模型 [29][30][31] - 总损失函数由语义损失、重构损失、评分损失和轨迹损失加权组成 [33] 模型性能对比与分析 - 在nuScenes基准测试中,World4Drive在3秒平均L2距离上达到0.50米,平均碰撞率为0.16%,其性能优于或接近LAW等先进方法 [36] - 消融实验表明,同时使用深度信息、语义信息、世界模型和意图感知机制的完整模型(ID 6)能取得最佳性能(L2: 0.50米, 碰撞率: 0.16%) [37] - 实验证明,增强的语义信息对降低L2距离和碰撞率均有帮助,而仅使用意图点机制而不结合其他改进则效果不佳 [39]
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]