Workflow
自动驾驶之心
icon
搜索文档
李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)
自动驾驶之心· 2026-01-21 17:16
文章核心观点 - 由港大OpenDriveLab、同济大学等团队提出的PlannerRFT框架,是一种用于基于扩散模型的自动驾驶轨迹规划器的闭环、样本高效强化微调框架,旨在解决现有方法在强化微调中探索能力不足的问题,从而提升规划器的闭环性能、安全性和鲁棒性 [2][5][14] - 该框架通过策略引导去噪机制,实现了多模态和场景自适应的轨迹采样,为强化学习优化提供了更有效的探索信号 [5][8][13] - 为支持大规模并行训练,团队开发了名为nuMax的GPU加速仿真器,其轨迹推演速度较原生nuPlan仿真器快10倍 [2][6][24] - 在nuPlan基准测试上的实验表明,PlannerRFT取得了最先进的性能,特别是在包含动态交互的复杂场景中,规划安全性得到显著提升 [2][9][35] 背景与问题定义 - 基于扩散模型的规划器已成为生成类人驾驶轨迹的主流方法,但通过模仿学习预训练的模型存在分布偏移和目标错位问题,限制了其在真实场景中的鲁棒性 [4] - 近期研究尝试将强化微调融入扩散规划器以提升性能,但原生扩散模型存在模态坍缩问题,导致在去噪过程中生成的轨迹缺乏多样性,难以进行有效的多模态探索,阻碍了强化学习的优化效率 [4][5] - 有效的强化微调需要规划器具备两种关键能力:多模态(生成多样化操作假设)和适应性(根据场景自主调整探索分布)[4] PlannerRFT框架设计 - **双分支优化策略**:框架采用“生成-评估”范式,在保持原始推理流程不变的前提下,通过一个专门的探索策略模块自适应地引导去噪过程,同时利用分组相对策略优化微调轨迹分布 [2][13] - **策略引导去噪**:为生成多模态轨迹,引入了基于能量的分类器引导机制,通过注入残差偏移量,使模型能在参考轨迹附近生成多样化轨迹,引导信号分解为横向和纵向两个正交分量进行解耦控制 [8][15][17] - **探索策略设计**:探索策略模块基于驾驶场景上下文和参考轨迹,学习预测用于调节横向和纵向引导尺度的Beta分布参数,实现场景自适应的轨迹采样 [18][19] - **轨迹采样**:在强化微调阶段,从探索策略学习到的分布中重复采样引导尺度,每个采样对对应一种独特的驾驶模态,从而生成多样化的轨迹集合用于优化 [20] 训练基础设施与优化方法 - **nuMax仿真器**:为加速训练,开发了基于Waymax的GPU并行仿真器nuMax,其仿真速度较原生nuPlan仿真器快10倍,支持高通量并行轨迹推演,这对实现规模化强化学习训练至关重要 [6][24] - **三阶段训练流程**:包括模仿学习预训练、模仿学习微调和强化学习微调,强化微调基于近端策略优化和分组相对策略优化实现 [6] - **生存奖励机制**:为在复杂场景中稳定优化,引入了生存奖励,对非终端轨迹片段的奖励进行累积,鼓励规划器延迟失效事件的发生,从而提升长时域可行性和探索效果 [9][27] - **最佳实践**:包括采用5步DDIM去噪以增强探索随机性、将探索策略初始化为生成零均值引导尺度、以及使用包含适度比例复杂场景的平衡数据集进行微调 [30][41] 实验结果与性能分析 - **主要性能提升**:在nuPlan基准测试中,与预训练的Diffusion Planner相比,PlannerRFT在反应式交通设置的Val14基准测试上得分提升1.66分,在Test14-hard基准测试上提升2.99分 [35] - **与基线对比**:PlannerRFT在四个基准测试中的三个取得了最佳整体性能,特别是在包含动态、高交互场景的Test14-hard非反应式数据集上,性能显著优于其他现有最优规划器 [36] - **行为模式演化**:强化微调使规划器呈现出与模仿学习不同的行为模式,通过奖励导向优化,驾驶策略逐渐调整为更安全、高效的机动动作,例如从发生碰撞到保持安全,再到执行果断且安全的变道 [37] - **探索策略有效性**:消融实验表明,与无引导、均匀分布采样或固定Beta分布采样相比,PlannerRFT提出的策略引导去噪在提升轨迹多样性的同时,实现了更高的闭环性能得分和更稳定的训练过程 [39][40] - **微调数据影响**:实验发现,仅在碰撞场景上训练会导致性能下降,而在所有简单场景上训练提升有限,最佳结果来自于在结合了碰撞和低得分场景的平衡数据集上进行微调 [41] - **关键参数影响**:奖励公式方面,生存奖励优于终端奖励;引导偏移量方面,适度的偏移量能在探索与利用之间取得最佳平衡 [43][46][47]
邀请到社区一位自驾转具身的同学,和大家线上聊聊......
自动驾驶之心· 2026-01-21 17:16
文章核心观点 - 文章核心是推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,旨在为从业者、研究者和学习者提供技术分享、学习路线、求职交流和行业洞察的一站式服务 [6][22] - 社区通过提供海量结构化学习资源、组织行业专家直播与交流、对接企业内推机会等方式,帮助成员应对行业技术快速迭代和高壁垒的挑战,降低学习与试错成本 [6][7][25] - 文章在推广社区的同时,也探讨了自动驾驶行业的一个热点趋势:从业者面临在传统自动驾驶与新兴的具身智能(机器人)领域之间进行职业选择的问题,并分析了具身智能领域的特点与风险 [2] 社区概况与定位 - “自动驾驶之心知识星球”是一个综合类自动驾驶技术社区,集视频、图文、学习路线、问答、求职交流为一体,社区成员已超过4000人,并期望在未来2年内达到近万人的规模 [6] - 社区成员背景多元,来自上海交大、清华大学、CMU、ETH等国内外知名高校实验室,以及蔚小理、地平线、华为、小米汽车、英伟达、Momenta等头部公司,形成了前沿技术聚集地 [22] - 社区创建的初衷是提供一个交流学术和工程问题的平台,致力于打造一个完整的自动驾驶生态 [21][22] 社区核心资源与内容 - **结构化知识体系**:社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容覆盖感知、规划控制、仿真、端到端、大模型应用等全栈领域 [8][10][22] - **海量学习资料**:汇总了近40个开源项目、近60个自动驾驶相关数据集、行业主流仿真平台、以及数学基础、计算机视觉、深度学习等领域的经典课程与书籍资料 [12][22][36][40] - **实战与进阶内容**:提供“自动驾驶100问”系列实战指南,涵盖模型部署、传感器融合、标定等工程问题,并整理了模型压缩、部署优化等实战落地内容 [12] - **前沿技术追踪**:对端到端自动驾驶、3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、Occupancy Network等当前学术界与工业界热点领域进行了详细的技术梳理与资料汇总 [42][44][46][48][50][53][55][62] 社区特色服务与活动 - **专家直播与分享**:社区不定期邀请一线产业界和学术界大佬进行线上直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [8][89][90] - **系统化视频课程**:为会员提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM、规划控制、数据工程、仿真、端到端与大模型等七大方向 [13] - **问答与交流机制**:成员可以自由提问,问题范围从技术入门、学习路线到求职跳槽、研究方向选择,会得到社区和嘉宾的解答 [11][23][25][92] - **行业大佬观点交流**:社区不定期组织与业内大佬的交流,分享对自动驾驶发展趋势、技术走向和量产痛点的见解 [8][97] 职业发展与就业支持 - **求职与内推**:社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员将简历第一时间送达心仪公司,并经常分享如小米汽车等公司的具体招聘职位信息 [13][17][25] - **职业方向探讨**:文章以“自驾转具身”的嘉宾为例,探讨了自动驾驶与具身智能两个领域的职业选择问题,指出具身智能是未来5-10年的趋势,但初创公司风险高,估值多在百亿人民币以下,技术迭代快且要求软硬件全栈能力 [2][3] - **高校与企业信息汇总**:社区汇总了国内外自动驾驶与机器人领域的高校实验室以及各类自动驾驶公司信息,为成员的升学、深造和就业提供参考 [32][34] 社区受众与价值主张 - **针对初学者**:社区为入门者准备了全栈方向的学习课程和完备的小白入门技术栈,旨在解决其缺乏完整知识体系和试错成本高的问题 [6][12][16] - **针对进阶者与研究者**:社区提供了深度的产业体系分析、项目方案和前沿技术讨论,帮助从业者缩短技术检索时间,保持技术领先 [20][22][25] - **价值主张**:社区致力于成为培养未来行业领袖的地方,通过提供高质量内容、优质交流环境和行业资源对接,帮助成员在高度内卷的行业中“扛内卷”并推动领域进步 [6][7][10]
有消息称FSD不是端到端One Model,而是近200个小场景模型的组合......
自动驾驶之心· 2026-01-21 08:51
特斯拉FSD技术架构分析 - 特斯拉并非采用单一的“One Model”端到端模型,而是由近200个小场景神经网络模型组合而成 [4] - 根据对HW4固件的反向分析,其包含两套模型组合:节点A有189个神经网络,节点B有110个神经网络,其中61个为两者共享 [4] - 系统针对不同驾驶场景(如工厂、高速公路、城市街道)和不同速度(常规与低速)部署了独立的端到端模块 [5] - 模型采用分块化设计,各部分根据运行需求表现为独立运行或流水线式协作 [6] 硬件平台模型演进 - HW3与HW4平台共享的神经网络数量总计达到135个 [7] - HW3平台在v12.6版本中,节点A大小为1.2G,节点B大小为3.1G [8] - HW4平台在v13版本中,节点A大小增至2.3G,节点B大小大幅增至7.5G,新增模型尺寸远大于HW3 [8] 工程实现与性能考量 - 特斯拉FSD的流畅性并非完全依赖算力和模型,很大部分得益于其重写了车控操作系统,显著降低了从控制到执行的延时 [23] - 在HW3平台上,带宽仅为68GB/s,模型总尺寸约为HW4的一半,在此条件下运行一个庞大的单一模型无法达到现有速度 [15][16] - 在现有智驾芯片散热功耗通常限制在100瓦左右的条件下,一味增大模型参数量会带来显著的时延问题 [17][18] - 输入图像信息及上下文会产生1000多个Token,导致Profile阶段延迟;输出更精确的Action Token越多,延迟也会越大 [17] 行业技术对比与趋势 - 当前大模型领域正在引入类似的多模型协作思路,例如Agent模式,GPT-4o被认为可能通过路由机制将任务分配给不同模型处理 [9] - 马斯克的Grok模型也采用类似思路:Grok 4为标准单代理版本,Grok 4 Heavy为多代理版本 [10] - 但FSD的模型组合目前尚不能与LLM领域的Agent概念完全类比,因其一般场景下缺乏推理能力,更像是各司其职的模块化组合 [11] - 国内一些智驾方案(如地平线)很可能也非真正的“One Model”,主要是受特斯拉营销概念影响而跟随 [25] - 行业内普遍认为,国内多数“一段式端到端”方案是以一个主模型承担主要功能(约95%),并辅以小模型优化,并非严格意义上的端到端 [2]
自动驾驶之心行业交流群来了
自动驾驶之心· 2026-01-20 17:03
自动驾驶之心行业交流群来了,关注头部新势力、Tier1、主机厂最新动态、L4赛道融资、技术进展、智驾落 地、行业动态等方向~ 添加小助理微信AIDriver005,备注:昵称+机构/学校+进群。 ...
以DiffusionDriveV2为例,解析自动驾驶中强化学习的使用
自动驾驶之心· 2026-01-20 17:03
文章核心观点 - 强化学习是解决端到端自动驾驶中模仿学习无法处理问题(如居中驾驶)的关键技术 [1] - 文章以DiffusionDriveV2为例,深入解读了PPO和GRPO等强化学习算法在自动驾驶轨迹生成中的应用与改进 [2][5][6] 强化学习在自动驾驶中的重要性 - 自动驾驶进入端到端阶段后,需要强化学习来解决模仿学习无法处理的问题,例如车辆居中行驶 [1] - 强化学习是后训练不可或缺的一部分,其热度因大模型发展而提升 [1] 主流强化学习算法:PPO与GRPO - PPO CLIP是最经典的PPO算法,其损失函数通过裁剪策略比例来稳定训练 [2][3] - 在自动驾驶中,对动作的评价是针对整个轨迹的质量,而非单个路径点 [3] - 优势函数A反映了当前决策相对于平均预期奖励的好坏,比单纯使用奖励更稳定,能避免不同场景间奖励方差过大的问题 [4] - GRPO的主要改进在于使用当前策略生成多个轨迹的平均奖励来估计价值函数V,而非使用Critic模型 [4][9] DiffusionDriveV2的强化学习损失函数 - 损失函数由三部分组成:DiffusionDrive的多个锚点设计、GRPO的组设计以及扩散模型的去噪过程 [9] - 锚点设计是DiffusionDrive V1的核心,用于生成多样化的轨迹 [9] - GRPO的组概念被修改,每个锚点拥有独立的组,以避免不同驾驶行为的数据相互压制 [11][12] - 组内优势的计算方式为:某个轨迹的奖励减去组内所有轨迹奖励的均值,再除以组内奖励的标准差 [12] - 引入了锚点间GRPO,对不同锚点的优势进行进一步优化,以避免优化方向坍塌 [13][14] DiffusionDriveV2的其他技术改进 - 轨迹加噪采用横向和纵向分别设定尺度的方法,以确保加噪后的轨迹保持正常 [15] - 新版本终于包含了模型选择器 [15] 当前挑战与未来展望 - 目前量产应用中,强化学习训练多为单步且作用于整个轨迹,因为端到端的闭环仿真在生成效率和质量上尚不足以支撑训练 [3] - 自动驾驶中的强化学习技术远未成熟,单步约束与模仿学习的区别有限,期待未来闭环仿真技术的进步带来更深入的强化学习应用 [15]
地平线再下一城......
自动驾驶之心· 2026-01-20 08:39
北汽与地平线成立合资公司事件 - 2026年1月4日,北汽与地平线合资成立北京智驭科技有限公司,北汽持股65%,地平线持股35%,主要负责智能辅助驾驶产品落地[4] - 双方已基于双地平线征程6M芯片方案,开发全场景城市NOA系统[5] 主机厂与供应商的智驾合作模式 - 行业主要有三种合作模式:主机厂直接采购供应商产品(拿来主义)、双方联合开发、成立合资公司[6] - 目前行业最常见的是联合开发模式,主机厂负责产品定义与测试,供应商负责软件算法与量产上车[6] - 成立合资公司的模式在行业中并不常见[7] 成立合资公司的动机与优势 - 传播价值:合资公司由主机厂主导,对外可宣传为自研,有利于增强品牌调性[7] - 实现全程可控:主机厂参与其中,可深入了解技术细节,避免因完全外包而导致心里没底[8] - 解决产品资产归属问题:合资公司开发的产品本质上属于合资公司,而占主导地位的主机厂拥有更多主动权[12] 智驾产品的采购与授权模式 - 一次性买断模式:主机厂支付固定费用,产品开发后归属主机厂,供应商不得提供给其他车企,此模式在行业早期较普遍,现已很少见[9][10] - License授权模式:供应商开发产品,供多家合作伙伴使用,按上车量收取单车授权费,产品归属供应商,此为行业主流模式[9][11] - 授权模式成为主流的原因在于,开发独用系统效率低、成本高、数据量少、迭代慢,不适合快速变化的市场[11] 主机厂自研能力的局限性 - 即便获得产品归属权,许多主机厂也不具备驾驭核心技术资产的能力,例如难以实现跨芯片平台的软件迁移[13] - 以地平线为例,其智驾产品是针对自身芯片的定制版,主机厂若想切换芯片平台,将面临编译器、算子库、加速器差异带来的巨大迁移难度[13] - 除了蔚来、小鹏、理想、极氪等少数新势力,没有一家主机厂成功量产一款像样的自研城区NOA方案,甚至完全自研高速NOA方案也极少量产上车[18] 合资模式意味着深度绑定与长期合作 - 成立合资公司意味着主机厂与供应商的深度绑定,双方需投入更多资源,需要足够大的上车量来摊薄研发成本[14] - 深度绑定使主机厂成为供应商的基石客户,合资公司的产品会向主机厂旗下更多车型和品牌倾斜[14] - 大众与地平线的合作是范例,从基础辅助驾驶功能合作开始,逐步拓展至L2++、座舱领域,最新战略是联合开发定制化芯片专供大众车型[14] - 这种深度合作模式对供应商是绝对利好[14] 行业内的其他合资案例 - 千里科技与吉利集团成立千里智驾,直接服务于整个吉利集团[15] - 华为与长安、赛力斯共同成立引望公司,其绑定逻辑与北汽-地平线模式相同,只是华为绑定的主机厂较多[16] - 更早之前,Momenta与比亚迪也成立了合资公司,属于行业早期的探索[17] 对行业未来趋势的预判 - 在主机厂自研智驾迟迟不见成效的背景下,与供应商成立合资公司可能成为实现“自研”的新合作路径[18] - 合资公司模式对主机厂而言,是一个既能保持体面(宣称自研)、又能弥补自身能力有限的“有里有面”的决定[19] - 可以预判,蔚来、小鹏、理想等新势力自研智驾最终能跑出来的可能性也不大,因为规模是硬性门槛,缺乏规模则无法摊薄成本,也没有足够数据迭代模型,其成长曲线无法与吃“百家饭”的供应商相提并论[20] - 未来,主机厂与智驾公司成立合资公司可能会越来越普遍,甚至不排除有新势力宣布放弃自研,完全采用供应商方案[21]
共一分享!复旦DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2026-01-20 08:39
自动驾驶视觉几何重建技术挑战 - 传统视觉几何Transformer(VGGT)的设计初衷与自动驾驶任务的先验知识存在本质差异,直接应用于自动驾驶系统会导致次优结果[3] - 自动驾驶场景存在三类关键新先验:相机视图重叠度极低、相机内参与外参已知、以及所有车载相机的相对位置固定[3] DriveVGGT框架的核心创新 - 提出DriveVGGT,一款专为自动驾驶数据设计的尺度感知型4D重建框架[4] - 设计时序视频注意力(TVA)模块,独立处理多相机视频以利用单相机序列中的时空连续性[4] - 提出多相机一致性注意力(MCA)模块,通过归一化的相对位姿嵌入执行窗口注意力,建立不同相机间一致性关联并限制每个token仅关注相邻帧[4] - 在标准VGGT预测头基础上扩展,新增绝对尺度头与自车位姿头以完善几何信息输出[4] 技术应用与性能提升 - DriveVGGT通过显式引入相机相对位姿先验,旨在显著提升多相机系统的几何预测一致性与推理效率[7] - 该框架致力于解决多相机重建任务,并有效提升重建速度[9]
L4数据闭环 | 模型 × 数据:面向物理 AI 时代的数据基础设施
自动驾驶之心· 2026-01-19 17:04
文章核心观点 - 在通往通用物理智能(如自动驾驶)的道路上,模型算法是天花板,而数据基础设施是地板,真正的壁垒在于两者能否实现“双轮驱动” [1] - 模型算法本身正在变成“快消品”,但如何从物理世界挖掘数据、定义好坏、构建逼真虚拟考场的基础设施,一旦建成将成为真正的护城河 [5] - 对于物理AI(如机器人、自动驾驶)而言,越是走向端到端和世界模型,以大规模实车数据闭环为核心的“重”基础设施就越有价值 [27][33] 行业风向与共识转变 - 自动驾驶和AI圈子的关注点已从比拼单个模型的智力上限(如模型架构、SOTA论文),转向争夺“数据基础设施”人才 [2][8] - 头部公司如Tesla、Wayve、DeepMind的技术重点已变为数据引擎、自动评测体系、生成式仿真和闭环能力 [3][8] - Tesla在FSD V12中强调从大规模车队中挖掘“特征片段”并构建自动评分系统,而非依赖人工规则 [3] - Wayve等激进端到端玩家将生成式世界模型(如GAIA-1/GAIA-2)作为产品路线图主干,认为AI需先学会生成逼真、可交互的世界才能真正学会驾驶 [3] - DeepMind的Genie项目逻辑类似,旨在从海量互联网视频中学习可交互虚拟环境,供智能体进行加速训练 [4] 物理AI的进化形态(类比科幻作品) - **第一阶段:完全虚拟(SAO Aincrad篇)** - 对应早期仿真与远程示教,所有交互发生在代码构建的虚拟空间,效率极低(1x实时),且无法模拟物理世界的混沌噪声 [9][10][16] - **第二阶段:增强现实(SAO Ordinal Scale篇)** - 对应当下的大规模实车数据闭环,在真实世界(如数千辆L4/L2+车辆)上叠加数据采集,核心优势是数据天然包含物理世界的真实分布,但核心痛点仍是数据积累速度受物理时间限制 [11][16] - **第三阶段:世界模型与时间加速(SAO Underworld篇)** - 对应物理AI的终极方向,即构建一个时间流速可加速(如现实1天等于虚拟几百年)的逼真世界模型,让AI在其中进行指数级快速试错与进化 [12][13][17] - **终局展望:脑机接口与人机融合(加速世界篇)** - 对应Neuralink等公司的愿景,通过高带宽脑机接口实现人类意图的零损耗采集,直接将人类价值观注入AI [14] 自动驾驶数据闭环体系的核心作用 - 当前建设的L4自动驾驶数据闭环,并非仅仅为了“修Bug”,而是将物理世界的混沌翻译成世界模型能理解的“教科书” [15] - 该体系为未来世界模型提供关键的“生成指令集”和自动化评判标准,其价值在于对物理世界的理解、问题定义和数据掌控力这些“慢变量” [21][32] 第一层:感知物理世界的“体温计”(指标体系) - 定义了如MPS(每愚蠢里程)和MPD(每危险里程)等客观物理指标,这些指标未来将成为世界模型的奖励函数,用以评判AI在虚拟世界中驾驶的舒适性与安全性 [18][19] - 这些物理世界的客观标准(如急刹代表体验差,画龙代表控制不稳,贴得太近代表危险)是永恒不变的 [24] 第二层:把“瞬间”变成“病历”(数据分级与CaseID) - 通过Microlog/Minilog/CaseID体系,从现实世界每秒产生的PB级噪声数据中,提取高价值信息,将零散数据事件(如一次急刹)转化为结构化的“临床病例”,供世界模型学习 [20][25] 第三层:把车队变成“题库”(标签与FastDM) - 通过秒级标签为每一帧数据打上数百个维度的标签(如雨天、夜晚、路口、有行人),再配合FastDM(极速挖数引擎),可以上帝视角快速检索特定场景组合 [21] - 这相当于为训练世界模型构建了一个“题库”和“生成指令集”,可以针对现实中最易出事的场景分布,指令世界模型生成大量变种环境进行针对性训练 [21] 第四层:把专家经验变成“自动判卷人”(Trigger框架) - 将资深算法工程师的Debug经验编写成Python Trigger,这些Trigger未来可在世界模型中运行,作为24小时监控虚拟车辆行为的“自动化判卷老师”,对违规行为即时给出负反馈 [22] 第五层:从Bug到课程(问题聚类) - 将零散的Bug聚类成“典型问题场景”,这对应于AI训练中的课程学习,可以分阶段、有重点地训练模型,例如先集中训练“无保护左转”,再高强度训练“鬼探头”场景 [23][26] 物理AI时代的基础设施价值 - **与LLM的差异**:ChatGPT等纯文本模型犯错代价低,而物理AI(如自动驾驶)存在“幻觉致命”风险(如生成违反物理规律的环境),且高质量负样本(如车祸数据)极其稀缺 [27][29] - **核心作用**:实车数据闭环用于校准世界模型的物理参数,并通过Trigger和挖数引擎淘金式挖掘高价值负样本 [28][29] - **未来开发模式**:世界模型作为“生成器”负责发散,生成海量可能路况;数据基础设施作为“判别器”负责收敛,用积累的典型问题库、MPD/MPS指标和实车数据去指引生成方向、评分并进行真实性校验 [29][36] - **长期主义投资**:真正的壁垒在于投资那些“不会变”的事物,如物理世界的客观指标、对优质数据(Corner Case)的筛选逻辑、以及自动化闭环的流程 [33][37] 实践成果与商业验证 - 阿里巴巴达摩院/菜鸟自动驾驶团队在2018至2025年间,实现了从封闭园区运营到公开道路常态化运营的跨越 [35] - 具体成就包括:双十一期间近千台“小蛮驴”在封闭园区并发运营的历史峰值;高速公路L4重卡达成500 MPI的目标;以及约500台公开道路无人车的常态化运营 [35][46] - 该系统创造了千万公里无重大事故的安全记录,并实现了降本增效的商业价值,证明了自动驾驶技术的生产力属性 [38]
摸底GS重建在自动驾驶业内的岗位需求......
自动驾驶之心· 2026-01-19 17:04
行业需求与岗位分析 - 有企业在2026年计划在重建方向投入招聘名额(HC) [2] - 重建技术主要用于自动驾驶测试的闭环仿真 具体流程是对离线片段(clip)数据用3D高斯泼溅(3DGS)重建动静态元素 以验证新模型能否预测合理轨迹并正常行驶 [2] - 支撑闭环仿真中重建优化的算法团队 一般公司需要5至20人 [3] - 云端数据生产也有需求 例如BEV视角下的静态路面重建(2DGS)可应用于静态真值生产 [3] - 小米的ParkGaussian将GS技术应用到泊车场景中 [3] - 综合来看 每个技术方向都需要至少10人左右的算法团队来支撑最基本的功能需求 [3] 技术发展路径与学习资源 - 3DGS领域较新 缺乏有效学习资料 对初学者困难 [3] - 梳理出的明确技术发展路线为:静态重建3DGS → 动态重建4DGS → 表面重建2DGS → 场景重建混合GS → 前馈GS [3] - 为应对学习需求 推出了《3DGS理论与算法实战教程》 花费两个月时间设计了一套从原理到实战的学习路线图 [3] 课程核心内容与结构 - 课程旨在帮助学员全面掌握3DGS技术栈 [3] - 第一章讲解3DGS背景知识 包括计算机图形学基础、三维空间表达、渲染管线、光线追踪、辐射场渲染 以及COLMAP、Gsplat等开发工具 并设有基于3D Real Car训练模型的小作业 [8] - 第二章深入讲解3DGS原理与算法 包括核心伪代码、动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战选用英伟达开源的3DGRUT框架 [9] - 第三章聚焦自动驾驶仿真重建 重点讲解Street Gaussian、OmniRe和Hierarchy UGP三篇工作 实战选用DriveStudio框架 [10] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及Relighting 并分析其工业界应用与学术前景 [11] - 第五章讲解前馈3DGS(Feed-Forward 3DGS) 梳理其发展历程与算法原理 并解析AnySplat和WorldSplat两篇最新算法工作 [12] - 第六章为线上答疑讨论 涉及3DGS岗位需求、行业痛点及开放性问题 [13] 课程安排与面向人群 - 课程为离线视频教学 辅以VIP群答疑及三次线上答疑 [15] - 课程于12月1日开课 预计两个半月结课 [15] - 章节解锁时间安排:第一章12月1日 第二章12月7日 第三章1月7日 第四章1月21日 第五章2月4日 [15] - 面向具备一定计算机图形学、视觉重建(如NeRF、3DGS)、概率论与线性代数基础 以及Python和PyTorch语言基础的学员 [17] - 学员需自备GPU 推荐算力在RTX 4090及以上 [17] - 课程目标使学员掌握3DGS完善的理论知识及相关技术栈、算法开发框架 并能与学术界及工业界同行持续交流 [17]
一个自驾算法工程师的具身智能思考
自动驾驶之心· 2026-01-19 11:15
文章核心观点 - 自动驾驶与具身智能在技术路径和商业落地上存在根本性差异 自动驾驶旨在解决场景的泛化问题 而具身智能旨在解决行为的泛化问题 [1] - 自动驾驶的商业落地意味着终局 具有研发门槛高、复用性强、场景单一且安全要求极高的特点 [4][5] - 具身智能的商业落地则像大树长出的枝桠 在不同发展阶段都能找到多样化的应用场景 对错误的容忍度更高 商业路径更为灵活 [6] 自动驾驶与具身智能的泛化性差异 - 自动驾驶的核心是解决**场景的泛化性** 即对当前场景进行全面理解并做出相应决策 例如识别锥桶需要刹车 但识别载有锥桶的工程车则无需刹车 [2] - 自动驾驶技术演进从多段式模块规则 到端到端监督轨迹 再到VLA和世界模型路线 本质都是为了提升对场景信息的理解与监督 [2] - 当前自动驾驶量产(尤其是L2辅助驾驶)的最大困扰仍是场景认知能力不足带来的corner case 例如导航理解错误、奇怪的施工场景、未见的指示牌等 这些认知泛化是技术突破的最后难点 [2] - 具身智能的核心是解决**行为的泛化性** 聚焦于在特定任务上泛化各种带扰动的状态和行为 例如在倒咖啡任务中应对杯子被碰倒、制作不同咖啡种类、接收者手部位置不同等扰动 [3] - 从Physical Intelligence的PI系列论文看 模型成功率提升最明显的阶段是在单任务专家数据上进行微调 机器人需要足够鲁棒地完成长程任务 [3] 自动驾驶的商业落地特点 - 自动驾驶取代的是单一场景(从A点到B点) 对安全性底线要求极高 例如无人出租车可能有过半代码与安全相关 因此呈现**研发门槛高、复用性强**的特点 [5] - 行业曾狂热追求L4级别无人驾驶(如无人出租、无人重卡) 但商业铺开时问题频发 例如Cruise因事故频发关闭运营 经历起伏后 Waymo、百度、小马智行等公司的无人出租业务在2024年才逐渐重新铺开 [5] - 特斯拉引领的L2辅助驾驶是重启商业落地的关键 得益于驾驶员接管兜底 其AI路线成功推动了辅助驾驶的商业落地 [5] - 自动驾驶是一个研发门槛极高的技术 其数据闭环、仿真工具链、训练平台等研发工具每个都足以支撑一家独立公司 [5] 具身智能的商业落地特点 - 具身智能在不同发展阶段都能找到商业落地场景 虽然规模远小于自动驾驶 但**场景更为多样化** [6] - 基于传统算法的工业机器人已在流水线运行 针对单一服务场景的机器人Demo也已出现 例如Physical Intelligence的博客显示其机械臂已可连续十小时制作咖啡 [6] - 具身智能落地场景的安全限制相对宽松 人们对错误的容忍度远高于自动驾驶 这使得一些公司(如Sunday Robotics)可以更早地专注于应用场景开发 [6]