自动驾驶之心
搜索文档
做了一份3DGS全栈学习路线图,包含前馈GS......
自动驾驶之心· 2025-12-16 11:16
3DGS技术趋势与行业应用 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,表明其可能基于前馈式GS算法实现,该技术正在自动驾驶领域焕发新一轮生机[1] - 行业普遍共识是通过前馈式GS重建场景并利用生成技术生成新视角,多家公司正开放HC招聘相关人才[1] - 3DGS技术迭代迅速,已从静态重建3DGS、动态重建4DGS、表面重建2DGS发展到前馈式3DGS[3] 3DGS技术课程内容 - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型及使用SuperSplat移除杂点的作业[7] - 第二章深入讲解3DGS原理、核心伪代码及动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[8] - 第三章聚焦自动驾驶仿真重建,解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界与工业界广泛使用的DriveStudio[9] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其在工业界的应用与学术界的探索价值[10] - 第五章讲解前馈式3DGS的发展历程、算法原理,并解析最新的AnySplat和WorldSplat算法工作[11] 课程结构与安排 - 课程由工业界算法专家Chris主讲,其为QS20硕士,现任某Tier1厂算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建经验[4] - 课程为离线视频教学,辅以VIP群内答疑及三次线上答疑,开课时间为12月1日,预计两个半月结课[14] - 课程章节解锁时间安排如下:第一章12月1日,第二章12月7日,第三章1月7日,第四章1月21日,第五章2月4日[14] 课程目标人群与要求 - 课程面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,拥有概率论、线性代数基础及Python和PyTorch语言能力的学员[16] - 学员需自备GPU,推荐算力在4090及以上[16] - 学员通过学习将掌握3DGS完善的理论知识及相关技术栈、算法开发框架,并能训练开源模型,有助于实习、校招和社招[16]
十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)
自动驾驶之心· 2025-12-16 08:03
文章核心观点 - 现有自动驾驶生成式世界模型在视觉真实性上已取得显著进展,但在几何一致性、时序稳定性和行为合理性方面存在明显缺陷,且缺乏标准化评估方法 [2][4] - 为解决此问题,研究团队提出了名为WorldLens的全方位评估基准,涵盖生成质量、重建性能、指令跟随、下游任务适配性和人类偏好五个核心维度,旨在引导模型向“不仅看起来真实,更能表现得合理”的方向发展 [2][8][36] - 为衔接客观指标与人类感知,团队构建了包含26,808条标注的WorldLens-26K数据集,并开发了基于人类反馈蒸馏的自动评估代理WorldLens-Agent,共同构成一个可扩展、可解释的评估生态系统 [7][19][20] 背景与问题 - 生成式世界模型已能生成视觉真实感类似行车记录仪的序列,但评估方法发展滞后,缺乏衡量几何结构保持、物理规律遵循和决策可靠性的标准化手段 [4] - 现有广泛使用的指标多侧重于帧质量和美学表现,难以反映物理因果关系、多视角几何一致性或控制场景下的功能可靠性,导致领域进展分散,研究结果缺乏可比性 [4] WorldLens评估框架 - **生成质量**:衡量模型合成视觉真实、时间稳定且语义一致场景的能力,拆解为目标保真度、目标连贯性、目标一致性、深度差异度、时间一致性、语义一致性、感知差异度、跨视角一致性八个子维度 [9][11][13] - **重建性能**:考察生成视频能否通过可微分渲染重建成连贯的4D场景,评估指标包括光度误差和几何差异度,以发现几何“漂浮物”等问题 [9][12] - **指令跟随**:测试预训练动作规划器在生成世界中安全运行的能力,评估发现几乎所有现有世界模型都会导致碰撞或偏离车道等问题 [9][14] - **下游任务适配性**:评估合成数据对基于真实数据训练的下游感知模型(如3D检测、跟踪)的支持效果,视觉效果出色的生成世界也可能导致检测或分割精度下降30%-50% [9][15] - **人类偏好**:通过大规模人类标注捕捉世界真实感、物理合理性和行为安全性等主观评分,研究发现几何一致性强的模型通常被评为更“真实” [9][15] 实验结果与关键发现 - **生成质量**:所有现有模型的表现均显著低于“经验最大值”,驾驶世界模型的视觉与时间真实感仍有巨大提升空间 [23] - **重建性能**:MagicDrive的重建性能最差,其光度误差和几何差异度均比表现最佳的OpenDWM高出两倍以上,而OpenDWM和DiST-4D将光度误差和几何误差降低了约55% [24] - **指令跟随**:在闭环仿真中,所有模型的路线完成率极低,频繁的失败表明当前合成数据仍无法在高级控制任务中替代真实世界数据 [25] - **下游任务适配性**:DiST-4D在所有任务(地图分割、3D检测、跟踪)中均大幅领先,平均比第二名模型高出30%-40% [28] - **人类偏好对齐**:所有模型的整体得分均较为温和(10分制中的2到3分),表明当前世界模型与人类级真实感仍有较大差距,DiST-4D在所有维度上的得分最为均衡 [30] 行业洞察与未来方向 - **全面评估至关重要**:没有任何单一世界模型能在所有方面表现最优,视觉真实感、几何一致性和下游可用性是互补而非可替代的,凸显了多维度基准测试的必要性 [34] - **感知质量不代表可用性**:感知得分优异的模型可能在下游任务中表现不佳,例如OpenDWM的3D检测得分比DiST-4D低30%,表明生成数据与目标域的对齐比感知真实感更为关键 [34] - **几何感知赋能物理连贯性**:DiST-4D在重建和新视角任务中的优异表现,表明几何感知监督能显著提升生成场景的物理真实性和可重建性 [34] - **未来设计指南**:物理接地世界模型的核心设计原则包括:将几何作为核心优化目标、稳定前景动态、确保自回归鲁棒性,以实现从视觉真实感向物理可靠性的进阶 [35]
SOTA!FaithFusion:即插即用的生成重建统一框架(百度&南大)
自动驾驶之心· 2025-12-16 08:03
文章核心观点 - 提出了一种名为FaithFusion的新型通用框架,旨在解决三维场景重建与生成融合中的核心矛盾,即如何平衡生成的创造性与几何重建的保真度 [3] - 该框架的核心突破在于摒弃依赖外部先验(如LiDAR、HDMap)的传统范式,转而从3D高斯泼溅(3DGS)模型内部挖掘指导信号,引入了基于信息论的像素级预期信息增益(EIG)作为融合策略 [3] - 通过EIG驱动的三阶段执行框架,实现了无需额外条件、即插即用的高性能新视角合成与场景外扩,在Waymo街景外扩任务中取得了最先进的性能 [5][20][23] 技术原理与创新 - **核心机制**:引入像素级预期信息增益(EIG)作为量化标准,用于评估对3DGS像素进行扩散模型编辑后带来的几何/外观信息价值增量,从而将“生成或保持”的决策转化为可计算的客观标准 [3] - **理论推导**:通过三步推导解决了EIG实际应用的关键障碍:1) 使用拉普拉斯近似,用3DGS渲染结果替代不可获取的真实观测数据(GT);2) 基于高斯后验假设将熵值计算工程化;3) 利用不等式和Fisher信息可加性,实现像素级EIG计算 [8][10][11] - **架构设计**:开发了EIGent双分支智能修复引擎,该模块以EIG图为输入,动态生成编辑掩码,确保仅在高EIG(高不确定性)区域进行创造性修复,而在低EIG(高置信度)区域严格保持原有内容,防止过修复 [15][17] - **训练循环**:设计了渐进式知识融合循环,通过“渲染诊断->精准修复->智能更新”三阶段,将修复信息安全整合到3DGS中,其中基于EIG的自适应加权损失函数是防止几何漂移的关键 [18][19] 性能表现与验证 - **定量指标**:在Waymo Open Dataset的6米大偏移变道任务中,FaithFusion的FID(弗雷歇距离)降至107.47,优于DIFIX3D+的111.92和ReconDreamer++的约115+,表明其生成的图像质量更高、更逼真 [21][23] - **几何一致性**:在同一任务中,其NTA-IoU(动态物体一致性)达到0.517,NTL-IoU(车道线几何一致性)达到55.78,均达到最先进水平,证明其生成内容几何准确 [21][23] - **定性对比**:可视化结果显示,在极端视角下,现有方法如ReconDreamer++会出现地面弯曲、建筑物歪斜等几何崩坏问题,而FaithFusion能保持全局几何稳定性和纹理保真度,清晰生成车道线等结构 [29] - **消融实验**:细粒度评估表明,仅引入EIG引导就可使FID下降约1.23,而完整的EIGent双分支架构使FID进一步大幅下降,证明了EIG核心机制的有效性 [25][27][30] 应用前景与意义 - **通用性与低成本**:该框架无需依赖额外传感器数据或对3DGS进行定制化改造,降低了落地成本,并具备即插即用的通用性,可适配多维度三维任务 [3][5] - **技术迁移潜力**:其基于信息增益的智能决策思路可迁移至图像/视频修复、Text-to-3D/4D等需要平衡观测稳定与生成能力的场景,尤其适用于三维目标不可见区域补全、场景迭代外扩 [5] - **跨领域联动**:EIG与主动建图技术核心逻辑同源,未来可借鉴视角选择、信息增益阈值等策略,使渐进式修复从“盲目迭代”升级为“精准高效”,进一步释放技术价值 [41]
手搓了一辆自动驾驶全栈小车,面向科研......
自动驾驶之心· 2025-12-16 08:03
产品定位与核心价值主张 - 公司推出“黑武士001”自动驾驶全栈小车,定位为教研一体轻量级解决方案,旨在解决科研平台价格高昂与教学套件不完整、上手慢的行业痛点 [2] - 产品核心优势在于高性价比,全栈配置售价为36999元,远低于性能强大但价格堪比小型车的科研级平台 [2] - 该方案设计为操作简单、快速上手,旨在帮助新手快速解锁自动驾驶全流程实操,并附赠模型部署、点云3D检测及多传感器融合三门课程以提升价值 [2] 目标用户与应用场景 - 目标用户广泛覆盖本科生学习与比赛、研究生科研与求职项目、高校实验室以及职业培训公司等多个教育层级 [4] - 产品支持感知、定位、融合、导航、规划等多个自动驾驶功能平台,适用于从学习进阶到科研发论文、项目落地的完整需求链条 [4] 硬件配置规格 - 传感器套件包括:Livox Mid360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能M10p 2D激光雷达(最大范围25m)、奥比中光Gemini2 TOF深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU(采样率100Hz) [22][31] - 计算单元采用NVIDIA Jetson Orin NX核心开发板,配备16GB RAM,AI算力达100 TOPS [34] - 车辆采用阿克曼底盘,整备质量30kg,车体尺寸为620mm x 400mm x 320mm(长x宽x高),最大运动速度可达2m/s,续航时间超过4小时 [23][25][26] 软件功能与性能展示 - 软件基于ROS、C++、Python框架,提供一键启动的开发环境 [28] - 功能演示覆盖室内、室外、地库及夜间等多种复杂场景,展示了包括2D/3D激光建图、点云3D目标检测、多传感器融合SLAM、车辆导航与避障等核心能力 [6][8][10][12][14][16][18][20] - 支持的软件功能模块丰富,涵盖2D目标检测与分割、深度估计、多种模式的SLAM(视觉、激光、惯性及其融合)、点云处理以及车辆控制等 [29] 产品使用与支持 - 产品提供详细说明书,内容涵盖硬件配置、软件环境、系统启动、各功能模块使用教程及注意事项 [30] - 系统启动流程明确,包括车辆上电、进入Ubuntu 20.04桌面系统及配置网络连接等步骤 [41] - 售后政策为1年内支持非人为损坏的售后维修,对于因个人操作或修改代码导致的损坏,公司提供免费维修服务 [52]
聊聊关于 Agentic RL 训推框架的一点看法和思考
自动驾驶之心· 2025-12-16 08:03
文章核心观点 文章是一篇对当前开源强化学习训练框架的技术调研与对比分析,作者基于其多模态模型在实际环境中进行多轮强化学习训练的业务需求,重点评估了verl、slime、AReaL、RL2等框架,并最终选择了AReaL框架 其核心观点在于,当前强化学习训练框架在适配复杂、长尾的Agentic环境时面临挑战,而异步训练架构与灵活的环境交互设计是解决这些挑战的关键方向 [2][3][11] 强化学习训练框架的现状与挑战 - 开源社区强化学习训练框架呈现百花齐放的状态,包括老牌的openlhf、trl、unsloth、verl以及今年新开源的slime、AReaL、Rlinf、RL2、ROLL等 [2] - 目前没有一款框架能很好地适配多模态模型进行Agentic强化学习训练,主要难点在于Agentic环境与具体业务强相关,难以从框架层面抽象出通用函数或类来适配所有环境 [2] - 作者在调研中主要纠结于几个关键点:框架的社区活跃度与环境适配代码修改量、训练过程中的GPU编排问题、数据流向与数据结构的设计,以及异步训练的支持程度 [2][3][5][6] 同步与异步训练架构的对比 - 在2025年前半年的RLHF和RLVR时代,训练长尾效应不明显,因此早期成熟的强化学习训练框架(如verl)主要采用训练和推理同步的架构方案 [3] - 同步训练架构遵循先推理后训练的固定流程,可能导致训练效率低下和GPU资源空转,例如在相同GPU集群上交替卸载模型,或在不同集群上采用流水线方案 [3][5] - 异步强化学习训练成为新框架的优先支持特性,它能提升效率,但会引入数据偏移问题,使训练从on-policy退化为off-policy,并且需要为训练和推理分配不同的GPU资源以优化资源利用率 [11] 关键技术实现与设计考量 - **训推分离**:当前几乎所有强化学习训练框架都采用训练与推理分离的架构,训练引擎使用FSDP、Megatron,推理引擎采用sglang或vllm,中间通过Ray进行资源分配与调度 [12] - **权重更新机制**:训练侧更新模型权重后,需将新权重传递给推理引擎,涉及不同模型切分方案间的适配,常用技巧包括分桶传输、通过Router转发等以降低通信开销 [16][17][18] - **训推Gap问题**:由于推理引擎的优化(如KV量化、算子融合)可能导致其输出的logits与训练引擎存在差异,解决方法包括使用重要性采样来拟合分布差异,并需注意推理量化(如4bit)可能因分布差异过大而被裁剪,导致训练不稳定 [19][20][21][22] - **Token一致性**:为避免二次编码导致的token分布不一致,所有强化学习训练框架在rollout返回时会同步返回输出的token ids,直接供训练引擎使用 [23] 环境交互与Agentic训练支持 - 环境交互部分在所有强化学习框架中均为异步实现,以避免阻塞 [28] - verl框架的Agent多轮训练逻辑相对僵化,其设计以工具调用视角为主,处理流程写死,难以适应每个rollout环境状态不一致的复杂交互需求 [24][25] - AReaL和slime框架在环境适配上设计更巧妙,支持通过自定义函数或工作流基类来实现复杂的、自定义的环境交互逻辑,灵活性更高 [26][27] 异步训练与长尾问题解决方案 - **异步训练核心**:采用生产者-消费者模型,推理引擎作为生产者进行rollout,训练引擎作为消费者获取数据进行训练,通过消息队列管理数据 [29] - **陈旧度管理**:引入staleness参数控制数据有效性,当rollout数据的模型版本号与当前最新模型版本号差距超过设定值(通常为1-2)时,数据将被丢弃,以防止因模型分布偏离过大导致训练无效 [32] - **部分Rollout**:这是解决长尾任务导致资源浪费的关键技术,当需要更新推理引擎权重时,可暂停正在进行的rollout任务,更新权重后从中断处继续,从而兼顾训练连续性与模型更新及时性 [37][38] 强化学习算法与奖励设置的思考 - 当前大语言模型的强化学习算法主要分为序列级奖励和Token级奖励两类,根本上都是PPO算法的变体 [39] - 奖励设置在Token粒度上难度较大,因为很难为序列中的每个Token设计客观合理的奖励,而实际业务的动作粒度通常由多个Token组成,因此是否存在针对业务动作粒度的最优奖励方案仍有待验证 [39] - 强化学习训练的成功关键被认为在于环境和奖励的设置,当前主流方案仍依赖大语言模型或智能体作为评判者,并辅以多种提示词技巧,但根本上仍无法完全避免奖励黑客问题 [42] 各框架特点总结与选择建议 - **verl**:代码工程化程度高,侧重训练与推理引擎的调度,践行SPMD思想,但异步训练支持较晚,且Agent循环控制流较为僵化,修改成本高 [12][25][43] - **slime**:代码简洁,流程明确,但早期对FSDP适配及异步训练的支持尚不成熟 [43] - **AReaL**:代码结构复杂但质量高,异步训练方案成熟,环境交互设计灵活,支持自定义工作流,是作者最终的选择 [2][29][44] - **RL2**:代码逻辑简单,适合初学者入门以理清强化学习训练的基本逻辑 [45]
没有好的科研能力,别想着去业界搞自驾了......
自动驾驶之心· 2025-12-15 19:33
自动驾驶行业高端人才市场现状 - 高端自动驾驶人才在市场上仍然非常抢手 多家新势力及头部Tier 1公司为硕士学历人才提供高达70万元人民币的年薪包 以争抢人才[2] - 许多参与过工业界预研岗位的学生在毕业前已被公司内定 反映出市场对具备实战经验人才的强烈需求[2] 企业对人才的核心能力要求 - 企业对人才的核心要求是“具备完整的科研能力” 而非简单地阅读论文[2] - 完整的科研能力具体指:能发现问题、定义问题、提出解决方案 并能形成方法论输出观点[2] 自动驾驶领域科研人员面临的普遍难题 - 导师不熟悉自动驾驶方向 需要学生自行调研领域痛点与难点[7] - 缺乏真实数据、算力资源以及明确的改进方向 导致研究进展缓慢[7] - 实验设计能力不足 做不出有效结果 缺乏解决问题的能力[7] - 在论文写作方面存在困难[7] 自动驾驶之心提供的科研辅导服务 - 提供1对1科研辅导业务 旨在帮助研究人员快速提升能力[3] - 辅导覆盖自动驾驶多个前沿技术方向 包括端到端、VLA、世界模型、强化学习、3D目标检测、BEV感知、Occupancy Network、轨迹预测等[4] - 提供的具体服务包括论文选题、论文全流程指导、实验指导以及申博指导[12] - 辅导服务已产出多篇论文 并被CVPR、AAAI、ECCV、CoRL、ICLR等顶级会议和期刊收录[9] - 服务目标涵盖自动驾驶顶会/顶刊、SCI各分区、中科院各分区、EI/中文核心以及毕设论文、申博和比赛支持[13]
45万亿!中国智驾的新风口来了
自动驾驶之心· 2025-12-15 19:33
L4级智能驾驶商业化进程总览 - L4级智能驾驶商业化进程显著提速,呈现政策、技术、场景三轮驱动格局 [1] - 在政策红利释放、核心技术进步与应用场景拓展的共同作用下,2025年五城L4车辆保有量预计突破10万辆,带动相关产业链规模超200亿元 [2] - L4级智能驾驶正从技术验证阶段迈向商业化爬坡阶段,预计2035年中国L4及以上智驾市场规模将超过45万亿元,渗透率达13%以上 [45] 发展背景与驱动因素 - 政策层面,国家级规划与五城全域开放试点明确事故责任划分,破除制度障碍 [2] - 技术层面,系统成本持续下探,车路云协同能力增强,提升复杂环境可靠性 [2] - 场景层面,Robotaxi、无人配送、干线物流等多场景试点加速从低速封闭向中高速开放场景跨越 [2] - 资本集中注入头部企业,政策逐步开放多类场景的L4智驾试点,商业化按“中低速封闭场景→高速开放场景”路径逐级拓展 [3] - 技术端以“车-云”与“车-路-云”协同为标配,感知-决策-控制专利持续攀升,推动研发测试迅速转入试运营和规模化落地 [3] 商业化应用现状与模式 - 低速半开放和封闭场景L4智驾基本已进入商业模式探索阶段和全面推广应用阶段,中高速开放/半开放场景当前多处于早期阶段 [6] - L4智驾技术的商业化应用需要场景提供方、技术公司、车企及供应商、金融机构与政府部门的共同协作 [7] - 当前商业模式主要包括产品销售与代运营两类,并以产品销售为主要方向 [8] - 商业上正从单点工具发展为跨场景运力平台,融入共享经济与多业态联动 [45] 园区服务场景 - L4智驾车辆根据工业和商业文创等不同类型园区的需求提供差异化服务 [10] - 工业园区多采用牵引车、叉车等车型,由智驾企业提供产品与技术支持;商业园区则更多使用小型车辆进行零售配送或巡防,运营方式包括园区自营和第三方代运营 [10] - 应用L4技术后,工业园区智能重叉车年均单车节省成本18万元,商业园区智能巡防车年节省成本约7万元 [11] 环卫场景 - 环卫场景覆盖园区与城区,涵盖清扫和垃圾清运等环节,车型包括扫路车、洒水车和垃圾车 [13] - 合作模式分为自建车队的重资产模式与提供技术服务的轻资产模式,并可进一步细分为四种类型 [14] - 园区场景中,L4智驾可替代人工清扫,年节约成本11%;城区场景中预计电动智驾环卫车可比传统柴油车节省21%的年均成本 [15] 城区配送场景 - 城区配送聚焦3-5公里范围内的社区服务,客户包括商超、餐饮和快递公司 [18] - 主流商业模式为“直接销售+订阅服务”,车辆价格已低于10万元,订阅费每月约2000–3000元 [19] - 同时也可采用租赁模式,由厂商负责运营。该模式通过“中转直发”提升物流效率,预计每年可为快递驿站降低超过4万元成本,降幅达19% [20] Robotaxi场景 - Robotaxi已形成以智驾公司、主机厂和出行平台为核心,政府、通信与安全机构辅助的成熟“金三角”模式,特斯拉等企业还在探索包括车主在内的四方协作模式 [23] - 在客单价25元、日接单17笔的假设下,单车年营收可超15万元,年均成本约12万元,毛利润约3万元,毛利率21%,接近传统出租车水平 [24] Robobus场景 - Robobus应用于城市微循环、地铁接驳及园区景区内部线路,城市公交多采用公交公司主导、多方协同的运营机制,园区景区则常见技术方直接参与运营 [26] - 一辆49座Robobus在60%满座率下,年营收预计近70万元,年成本约51.3万元,毛利润超17万元,毛利率可达25% [27] 干线物流场景 - 干线物流存在轻资产、重资产和混合三类合作模式,目前以L2辅助驾驶为主,正逐步向高阶智驾发展 [29] - 预计进入小规模运营阶段后,年均成本将降至55万元,与传统燃油车持平甚至略低;大规模运营后成本将进一步降至44万元,相比传统车辆节省17万元 [29] 港口场景 - 港口场景以销售与代运营为主要商业模式,销售包括解决方案和整车两种形式 [31] - DCV无人集卡已实现成本优势,年省约6万元;IGV、AGV和ASC车型随着规模扩大和技术成熟,未来成本还将进一步下降 [32] 航空港场景 - 航空港场景目前仅采用“整车销售+软件服务”模式,由地服公司运营,不涉及代运营 [34] - 因作业强度大、容错率低,L4技术对提升安全与效率具有关键作用,已应用于摆渡车、行李牵引车等车型,并在国内外多个机场进行测试与落地 [34] 矿山场景 - 矿山场景中L4车辆主要用于矿石与人员运输,合作模式包括向矿企提供解决方案或按运输量收费 [36] - 智驾矿卡可显著降低人工成本,单车年均节省超过40万元司机费用,同时安全性更高,但车辆购置与运维成本仍较高 [37] 仓储场景 - 仓储场景以“硬件+软件”结合服务为主,提供AGV/AMR设备及调度管理系统 [39] - 主流模式包括销售、租赁和代运营,早期以销售为主,如今合作形式日趋多元 [40] - 应用L4技术后,仓储可实现数字化运营,年均单车节省约2万元人工成本 [41] 技术发展趋势 - 在技术上,硬件趋向冗余与容错设计,软件依托端到端架构与多模态模型实现感知和伦理决策,车路云融合实现全局优化 [45]
小鹏最新一篇基于潜在思维链世界模型的FutureX,车端可以借鉴...
自动驾驶之心· 2025-12-15 14:00
文章核心观点 - 提出一种名为FutureX的新型端到端自动驾驶框架,该框架通过将思维链推理融入潜在世界模型,在执行运动规划前对假设的未来场景进行推理,从而在复杂动态交通环境中生成更安全、更合理的运动规划 [3][8][30] - FutureX的核心创新在于引入了“潜在思维链推理”概念,将推理步骤与潜在世界模型的前向滚动预测相结合,并设计了“自动思考开关”来根据场景复杂度动态选择“思考模式”或“即时模式”,以平衡性能与实时性需求 [3][6][8] - 实验表明,FutureX能显著提升现有端到端基线模型的性能,例如在NAVSIM数据集上,使TransFuser的预测驾驶员模型得分提升了6.2,并在多项指标上达到当前最优性能 [3][13][27] 背景回顾:端到端自动驾驶的挑战与机遇 - 端到端自动驾驶系统通过单一神经网络直接将传感器输入映射为控制输出,执行高效的一次性前向预测,但缺乏在复杂环境中的适应性和可解释性 [5] - 人类驾驶员在决策前会进行未来场景模拟,这种内在推理能力对于在高度动态的交通环境中做出安全决策至关重要,而现有端到端系统缺乏这种能力 [5] - 受大型语言模型中思维链机制的启发,自动驾驶领域开始探索将推理融入规划,但现有方法多停留在文本描述层面,未能与实际的规划和控制过程紧密结合 [6] FutureX框架方法论 - **自动思考开关**:评估当前场景的规划难度,决定是否激活潜在世界模型进行额外推理,以在复杂场景中优化轨迹,在简单场景中快速响应 [7][8][18] - **思考模式**:当开关激活时,潜在世界模型执行思维链引导的滚动预测,生成一系列未来场景的潜在表征,随后由总结网络利用这些未来信息优化初始轨迹 [3][7][12] - **即时模式**:当开关判断为简单场景时,系统绕过世界模型,直接通过策略网络和总结网络快速生成运动规划 [3][7] - **潜在思维链推理**:将思维链重新定义为在潜在特征空间内进行的、可学习的“世界模型-策略”循环,每个推理步骤对应世界模型基于一个短期子轨迹进行的未来状态模拟 [6][9][16] - **基于思考的轨迹优化**:总结网络以初始轨迹和思维链推理生成的未来潜在状态序列为输入,预测轨迹偏移量,输出优化后的最终轨迹 [17] 实验验证与性能表现 - 在NAVSIM数据集上,FutureX使TransFuser的预测驾驶员模型得分提升了6.2 [3] - 在CARLA的Longest6基准测试中,FutureX在纯视觉和视觉-激光雷达多模态设置下均超越了强大的基线模型(如UniAD、VADv2、TransFuser等),在无过错碰撞、可行驶区域合规、自我进度等多个关键指标上达到最优 [27] - 定性结果显示,FutureX能够通过及时刹车或变道超车来避免碰撞,并能提供更合理的转向规划 [28] - 在效率方面,FutureX通过自动思考开关实现了性能与延迟的平衡,例如在特定配置下,其延迟为31.3毫秒±0.6毫秒,同时PDMS得分达到89.2 [29]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 14:00
课程核心信息 - 课程名称为世界模型小班课,是继《端到端与VLA自动驾驶小班课》后推出的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力学员理解端到端自动驾驶 [12] - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表CCF-A论文2篇及若干CCF-B论文 [4] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [4] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界解决的问题和应用环节,并介绍相关数据集与评测 [7] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [7][8] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [10] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备与公司关注内容 [11] 关键技术覆盖 - 课程将复习Transformer基本概念并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [13] - 详细介绍BEV感知基础知识及常见的占用网络,讲解扩散模型理论知识及其在多模轨迹输出中的应用 [13] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN以及Next Token Prediction [13] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等具体工作 [14] 面向人群与学后收获 - **面向人群要求** 学员需自备GPU,推荐算力在4090及以上,具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等基本概念,具备概率论、线性代数基础及Python和PyTorch语言基础 [15] - **预期学习成果** 学完课程能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,并能将所学应用到项目设计中,对实习、校招、社招均有助益 [15] 课程进度安排 - 课程章节按计划解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [17]
理解 RL学习的本质!
自动驾驶之心· 2025-12-15 08:04
文章核心观点 - 一篇获得NeurIPS最佳论文奖的研究表明,强化学习与人类反馈微调并不能让大语言模型获得超越其基础模型的新能力,它只是提高了在模型已有能力范围内寻找解决方案的搜索效率[4] - 另一项来自Meta的研究从参数更新机制上解释了上述现象,指出RL训练存在一种高度局部化、受模型自身几何结构引导的优化偏差,这限制了其探索新路径的能力[18][23] - 有研究指出,监督微调虽然能扩展模型的能力边界,但会导致灾难性遗忘,而RL训练则能避免此问题,暗示在“学习新能力”和“避免遗忘”之间可能存在权衡[31][34] - 一种名为“On-policy Distillation”的混合方法被提出,可能兼具SFT扩展能力和RL避免遗忘的优点,或代表未来的探索方向[35][36] RLVR对模型能力边界的影响 - 研究通过pass@K评估发现,在K=1时,RL模型表现优于基础模型,但随着K增大,两者表现趋近,并在K较大时被基础模型超越,证明RL并未拓展模型的能力边界[4][7] - 实验结论在各种RL方法、多种评估测试集及不同模型规模上均成立[5] - RL训练后的模型在精度分布上呈现两极分化:在高精度区域非常集中,但在低精度区域表现不如基础模型,且输出精度为零的概率更高[8][9] - 数据显示,存在许多基础模型能解决而RL模型不能解决的题目,但几乎不存在基础模型不能解决而RL模型能解决的题目[11] - 与RL不同,蒸馏学习能够拓展模型的能力,使其学会解决原本无法解决的问题[12] RL训练的参数更新机制与优化偏差 - 研究指出RL训练存在“模型条件优化偏差”,参数更新高度局部化,且在不同运行、数据集和RL方法间保持高度一致[18] - 该偏差受“三重门”机制影响:1) 策略RL施加的单步KL约束,像狗链一样限制每一步更新不远离原始分布[21];2) 模型几何结构决定了KL约束下的更新方向,更新会避开高曲率方向,沿主角度进行[22];3) 低精度表示充当了过滤器,将幅度很小的更新归零,这造成了更新稀疏的表象,实际更新参数并不少[23] - 因此,RL训练本质上是在强化模型预训练先验内的解决方案,而非探索其外的创新路径[14] - 这种机制导致RL训练保持了参数谱几何结构,并避开了主要权重的更新,而SFT训练则会扭曲谱几何并针对主要权重[27] 不同训练方法的权衡与潜在解决方案 - 监督微调能扩展模型能力但会导致灾难性遗忘,而RL训练不能扩展能力但能避免遗忘,两者可能构成一种权衡[31][34] - 一项名为“On-policy Distillation”的方法被提出,它原理上是RL训练,但过程类似于SFT蒸馏,可能兼具扩展能力边界、高效寻找推理路径和避免灾难性遗忘的潜力[35][36][42] - 有研究建议,未来可能需要设计“RL-native, geometry-aware”的算法,例如通过冻结主要权重、更新非主要低幅度权重来适配RL学习的特征[25][28] - 该领域研究尚未定论,有论文提出了看似相反的结论,表明可能需要更细化的能力分类学和更科学的消融实验[16]