Workflow
自动驾驶之心
icon
搜索文档
ICCV 2025 | 高德SeqGrowGraph:一种车道图增量式生成新范式
自动驾驶之心· 2025-10-31 08:06
文章核心观点 - 高德地图视觉技术团队提出了一种名为SeqGrowGraph的全新车道图生成框架,该框架将车道图的构建过程建模为一个链式图扩展过程,颠覆了以往将图视为整体进行处理的思路 [1] - 该方法旨在解决现有技术在处理复杂道路拓扑结构(如环岛、立交桥、双向单车道)时的固有缺陷,通过增量式构建模拟人类绘制地图的直观逻辑 [1][7] - 在nuScenes和Argoverse 2等大规模数据集上的实验表明,SeqGrowGraph在拓扑准确性指标上达到了最优性能,证明了其有效性和优越性 [13][14][18] 技术背景与行业挑战 - 精确、完整的车道级高精地图是实现高级别自动驾驶系统安全可靠路径规划的基石 [1] - 现实世界的道路网络包含非线性复杂结构,给传统车道图构建方法带来巨大挑战,现有方法难以捕捉全局拓扑或无法处理闭环结构 [1] - 行业主流技术路线分为基于检测和基于生成两类,但前者易产生断连、冗余或拓扑错误,后者则受限于有向无环图假设,难以表达闭环和双向道路 [2][5] 核心方法:SeqGrowGraph - 核心思想是将车道图构建分解为一系列原子的图扩展步骤,并利用自回归模型学习这一动态生成过程 [7] - 构建过程包含四个关键步骤:引入新节点、扩展邻接矩阵、更新几何矩阵(采用二次贝塞尔曲线描述形状)、以及序列化与自回归预测 [6][8] - 采用深度优先搜索顺序组织扩展步骤,并利用基于Transformer的解码器自回归地预测序列,将复杂图结构分解为线性序列 [8][10][11] 实验性能与优势 - 在nuScenes数据集的default划分上,SeqGrowGraph在Landmark和Reachability指标上全面领先,例如Landmark-Precision达到63.6,显著优于TopoNet的52.5和LaneGAP的49.9 [14][15] - 在更具挑战性的PON划分(训练测试集场景无重叠)上,该方法也展现出强大泛化能力,Landmark-Precision达到43.5,优于RNTR的39.9和LaneGraph2Seq的21.9 [14][15] - 定性分析显示,该方法能生成拓扑连续、结构完整且几何精确的车道图,有效解决了其他方法存在的断连和路径冗余问题 [16]
RAD:通过3DGS结合强化学习的端到端自动驾驶
自动驾驶之心· 2025-10-31 08:06
文章核心观点 - 论文提出了一种名为RAD的新方法,通过结合3D高斯溅射技术和强化学习与模仿学习的协同训练,以解决端到端自动驾驶算法在现实部署中面临的因果混淆和开环差距问题 [1][2][24] - 该方法在逼真的3DGS环境中进行闭环强化学习训练,使自动驾驶策略能通过大规模试错学习处理分布外场景,并在碰撞率等关键安全指标上显著优于现有模仿学习方法 [2][9][15] - RAD框架采用三阶段训练范式,并设计了专门的安全奖励函数和辅助目标,以在提升安全性的同时保持与人类驾驶行为的一致性 [8][9][11] 相关研究背景 - 现有基于模仿学习的端到端自动驾驶算法主要学习状态与动作的相关性,而非因果关系,导致策略难以识别规划决策的真正因果因素,出现“捷径学习”现象 [1][6] - 模仿学习训练数据主要覆盖常见驾驶行为,对长尾分布中的安全关键事件覆盖不足,使得策略在面对碰撞等场景时缺乏敏感性 [6] - 开环训练与闭环部署之间存在差距,模仿学习策略在训练时未见过的场景中表现不佳,存在误差累积问题 [2] 研究方法与技术方案 - 利用3D高斯溅射技术构建真实物理世界的逼真数字副本,为自动驾驶策略提供可进行大规模交互训练的虚拟环境 [2][11] - 设计了由动态碰撞奖励、静态碰撞奖励、位置偏差奖励和航向偏差奖励四部分组成的综合安全奖励函数,以引导策略学习安全驾驶行为 [11] - 将模仿学习作为强化学习训练中的正则化项,使策略在利用强化学习增强因果关系建模和缩小开环差距的同时,保持与人类驾驶行为的一致性 [2][11] - 采用三阶段训练范式:感知预训练、规划预训练和强化后训练,逐步优化自动驾驶策略 [11] 实验设置与评估结果 - 实验基于2000小时的真实世界人类专家驾驶演示数据,并从中选取4305个高碰撞风险的密集交通片段重建为3DGS环境,其中3968个用于训练,337个用于评估 [15] - 使用九个关键指标进行评估,包括动态碰撞比率、静态碰撞比率、位置偏差比率、航向偏差比率、平均偏差距离以及纵向/横向抖动等 [15] - 消融研究表明,当强化学习与模仿学习的训练步骤比例为4:1时,策略在安全性和轨迹一致性之间达到最佳平衡 [15] - 与现有模仿学习方法相比,RAD在碰撞比率指标上实现了3倍的降低,显著提升了安全性 [9][15] 性能优势与定性结果 - 在定性比较中,仅基于模仿学习的策略在动态环境中表现不佳,经常无法避免与移动障碍物的碰撞,而RAD能够持续良好地处理复杂交通情况 [15] - RAD在绕行、密集交通中爬行、交通拥堵和U型转弯等多种驾驶场景下均能生成更平滑的轨迹,并展现出更强的碰撞避免能力 [16] 未来研究方向 - 当前3DGS环境中的其他交通参与者以非交互式日志回放方式运行,未来可开发能实时响应自车行为的高级交互环境 [17][21] - 3DGS技术在渲染非刚体、未观测视图和低光照场景方面仍有改进空间,需研究更先进的渲染技术 [17][21] - 可探索多智能体强化学习或元强化学习来进一步提升训练效率和策略的泛化能力 [18][21] - 通过结合行为克隆、逆强化学习或人类反馈学习,可增强自动驾驶策略与人类驾驶行为的一致性 [19][21]
哈工大最新一篇长达33页的工业智能体综述
自动驾驶之心· 2025-10-31 08:06
工业智能体技术框架 - 工业智能体的核心能力依赖记忆、规划、工具使用三大技术支柱,三者协同推动系统从简单指令执行者升级为自主决策、协作创新的复杂系统 [5] - 记忆机制演进分为五个阶段:从依赖LLM上下文窗口的瞬时记录(L1),到连接外部知识库的被动检索(L2),再到具备经验内化能力的主动学习(L3),进而发展为多智能体协作的分布式共享(L4),最终实现类似人类文化传承的进化式记忆(L5) [8][9][11] - 规划能力进化路径清晰:从线性推理(L1)、反应式规划(L2)、全局规划(L3)、协同规划(L4)到自主目标规划(L5),决策深度不断提升 [12][14][15] - 工具使用能力实现从被动调用到主动创造的跨越:包括指令驱动(L1)、目标驱动(L2)、工具编排(L3)、协同使用(L4)和工具创造(L5)五个层级 [16][18] 能力成熟度模型 - 论文创新性提出工业智能体五级能力成熟度框架,从L1流程执行系统到L5自适应社会系统,清晰定义各阶段核心价值与应用边界 [2][18] - L1流程执行系统专注于指令翻译和结构化信息提取,典型场景包括数据库查询、工业图纸生成 [18] - L2交互式问题解决系统具备软件交互和知识辅助决策能力,应用于网页自动化、金融市场分析 [18] - L3端到端自主系统实现数字工程、科学发现和具身交互,覆盖软件开发、材料设计等领域 [18] - L4协同智能系统执行多智能体业务和复杂系统仿真,应用于智能制造调度、供应链优化 [18][19] - L5自适应社会系统具备自主目标生成、价值进化能力,支撑去中心化组织运营、智慧城市治理 [18][19] 评估体系与方法 - 评估体系围绕基础能力验证与产业实践适配两大维度展开 [20][22] - 记忆能力评测聚焦信息存储与检索准确性,如MemoryAgentBench测试精准检索、长程理解能力,3DMem-Bench通过2.6万+轨迹评估空间记忆推理,QuALITY数据集以5000字长文档考验文本记忆深度 [23] - 规划能力评测从逻辑推理到动态决策分层考核,基础层使用GSM8K、HotpotQA,进阶层采用TextAtari(10万步游戏决策)、FlowBench(51个跨域工作流) [23] - 工具使用能力评测覆盖API调用、工具组合与容错性,ToolBench、API-Bank覆盖400+真实API,ComplexFuncBench、NESTFUL针对嵌套工具链等复杂场景 [23] - 产业实践评测向场景化、高保真方向发展,金融领域使用FinRL Contests考核风险控制,医疗领域用MedAgentBoard验证诊断准确性,软件领域以SWE-bench(2294个GitHub真实漏洞)评估代码修复能力 [23][27] 行业应用全景 - 数字工程领域:智能体承担从需求分析到部署的全流程任务,AutoDev框架模拟人类开发团队协作,CVDP基准覆盖硬件设计与验证任务 [28] - 科学发现领域:LLMatDesign自主设计新材料晶体结构,AgentDrug实现药物分子优化,AI Scientist-v2生成首篇AI撰写的同行评审论文 [28] - 具身智能领域:PaLM-E实现端到端embodied推理,ECoT框架提升机器人复杂任务泛化性,世界模型生成仿真场景用于自动驾驶训练 [28] - 金融服务领域:TradingAgents模拟多角色协作优化交易策略,Risk-Engineering框架通过三级压力测试评估极端市场稳定性 [28] - 医疗健康领域:MedChain构建交互式临床病例库支持多步诊断推理,ChestAgentBench优化放射科诊断精度,MedSentry通过5000+对抗性提示测试安全性 [26][29] - 复杂系统仿真:CitySim模拟个体行为预测城市动态,InvAgent优化库存管理应对供应链波动 [32] 技术挑战与未来趋势 - 面临四大核心挑战:技术瓶颈(长时序可靠性、跨模态对齐、实时性不足)、评测困境(真实性vs可复现性、成本vs效率、隐私vs数据质量)、落地障碍(系统兼容性、组织信任与转型、安全与伦理) [31][33] - 未来突破方向包括统一范式与跨模态融合、语言与推理深度结合、开放基准与生态构建 [31][33] - 工业智能体本质是AI从感知智能向认知智能的跨越,具备理解业务、规划策略、创造价值的能力 [31][33] - 智能体将作为数据引擎生成合成数据、决策助手提供专业知识支持、协作伙伴提升效率、创新载体突破人类认知局限 [33]
禾赛科技和图达通的专利大战
自动驾驶之心· 2025-10-30 11:31
专利纠纷事件概述 - 禾赛科技正式起诉图达通侵犯其专利权,案件涉及图达通在CES 2025上展示的新品灵雀E1X与禾赛科技的AT系列产品 [3] - 诉讼要求图达通立即停止侵害其多项专利权 [6] 产品与技术相似性 - 灵雀E1X与禾赛ATX在外形和接口上非常相似 [3] - 图达通新品在系统架构上采用了与禾赛AT系列相同的"905nm波长+一维扫描"方案,一改其之前主打的"1550nm波长+二维扫描"方案 [3] 图达通的技术路线转型 - 图达通过去是国内激光雷达公司中对1550nm技术路线为数不多的拥趸 [3] - 由于过去两三年激光雷达市场爆发且放量的是905nm产品,1550nm产品市场遇冷,图达通为摆脱困境进行转型 [3] - 图达通于2024年5月首次提出"1550nm和905nm双线布局的产品策略",并宣布E1X获得一家中国头部车企旗下多个品牌车型定点 [4] 图达通的IPO进程 - 图达通在2024年2月港交所递表失效后,正式选择SPAC模式上市 [4] - 2024年10月14日,图达通赴港IPO获备案,拟通过借壳香港SPAC公司TechStar Acquisition Corporation上市 [4] - 核心专利纠纷可能影响公司IPO上市,案例参考吉利与威马的知识产权纠纷成为威马上市的拦路虎 [4] 禾赛科技的市场地位与产品 - ATX是禾赛于2024年4月正式推出的新一代小巧型远距激光雷达,已获得比亚迪、奇瑞、长城、长安等十多家国内头部车企的几十款车型定点合作,并于2024年第一季度启动大规模量产 [5] - AT系列首款产品AT128于2021年发布,累计获得来自15家主流汽车厂商超过50款车型的前装量产定点 [5] - 禾赛科技2025年度第100万台激光雷达已于2025年9月底正式生产下线,成为全球首个年产量突破百万台的激光雷达企业 [5] 行业竞争态势 - 激光雷达行业过去几年价格战特别激烈,新进入者为拿到项目将价格一降再降 [5] - 业内人士认为价格战非常不利于行业发展,对谁都没好处 [5] - 图达通已拿下零跑汽车主机厂某车型定点 [5] 人员流动情况 - 据透露,禾赛北美的几位员工已加入图达通,包括一位总监级别以上的员工 [3]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-10-30 08:56
公司智能驾驶发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图,到基于AI的E2E+VLM快慢双系统,再到VLA司机大模型的演进 [6] - 在以上四个方案中,导航模块是重点突出的部分 [6] 数据闭环系统能力 - 公司数据闭环流程包括影子模式验证、数据触发回传、云端数据挖掘、自动标注、生成训练集训练模型及模型下发验证 [9] - 数据回传过程已实现一分钟内完成 [10] - 公司目前拥有15亿公里的驾驶数据,并通过200多个触发器生产15-45秒的片段数据 [10] - 端到端量产版本的MPI已达到220+,相较于24年7月底版本提升了约19倍 [12] 自动驾驶下半场战略转向 - 行业观点认为自动驾驶已进入下半场,需从数据闭环转向训练闭环的新模式 [17][20] - 数据闭环存在局限性,难以完全解决长尾场景收敛问题,例如交通管制、烟花燃放和突然变道等场景 [15] 训练闭环核心技术栈 - L4级训练循环的核心由VLA司机大模型、强化学习和世界模型构成 [22] - 轨迹优化结合了VLA的Diffusion技术和基于世界模型的强化学习 [22] - 强化学习范畴不仅包括RLHF,还涵盖RLVR和RLAIF [22] - 世界模型主要用于场景重建和新视角复原 [22] - 闭环自动驾驶训练关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 仿真与生成技术进展 - 仿真依赖场景重建技术,具体包括视觉/Lidar重建、区域重建、多趟重建、场景编辑和风格迁移 [25] - 合成数据通过多模态生成技术获取,如视频/点云生成和神经渲染 [25] - 强化学习依赖于智能体、3D资产以及评测和奖励机制 [25] - 公司在重建到生成的方案上取得进展,例如Feedforward 3DGS技术可直接由视觉输入得到结果,无需点云初始化 [26] - 公司在重建领域有两篇顶会论文,联合重建与生成领域有一篇顶会论文,生成领域有三篇顶会论文 [26][29][31] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [33] - 公司在数据配比方面进行了大量优化工作 [35] 训练闭环关键挑战与系统能力 - 可交互的智能体是实现训练闭环的关键挑战 [37] - 系统能力作为增强引擎,世界模型提供仿真环境,3D资产构建多样化场景,模拟智能体进行交互式行为建模,奖励模型提供准确反馈以增强泛化能力,GPU工程加速推理过程 [38]
传统规划控制不太好找工作了。。。
自动驾驶之心· 2025-10-30 08:04
行业技术趋势 - 自动驾驶规划控制岗位的职责范围正在扩大,不再仅仅是逻辑兜底,端到端和VLA的量产趋势正在蚕食传统规划控制的生存空间 [2] - 行业秋招面试更看重规则算法与端到端技术的结合,仅掌握传统规控基础已难以获得优质offer [2] - 工业界实际关注的加分项包括不确定环境下的决策规划问题,例如Contingency Planning和博弈式交互规划经验 [2] - 业内核心议题是明确端到端技术与传统规划控制在量产中的角色定位,前沿算法如一段式、二段式、自动驾驶与大模型及VLA是未来PnC岗位必须掌握的内容 [2] - 端到端自动驾驶是近两年的热点,传统规控工程师需了解其与传统方法的优劣及实际落地中的数据驱动收益最大化策略 [29] 课程核心目标与定位 - 课程设计直面工作难点和实际量产问题,旨在教授业内使用的经典方案、热门端到端方案以及两者在实际落地中的融合方式 [6] - 课程重点的两个工程项目可直接写入简历,尤其适合缺乏相关实习经验或简历项目不突出的学员在秋招前提升竞争力 [6] - 课程为小班教学,招收学员不超过50人,主打保姆级陪伴与教学,学完目标对标2年算法工程师经验 [7] - 课程后期提供求职辅导,包括修改简历、模拟面试和推荐工作机会,以助力学员拿到offer [8] - 课程适用于有一定实习或工作基础的学员,非面向纯小白,购买本课程可免费获赠一套基础课程 [12] 课程内容与教学安排 - 课程使用C++和Python作为主要开发工具,所有代码将开源,学员需具备一定的编程基础 [15] - 课程第一章将全面复盘规划控制基础算法,建立学员对领域的整体概念和全局视野 [20] - 第二章将利用基础算法构建完整的决策规划框架,包括路径-速度解耦框架、时空联合框架及数据驱动框架 [21] - 第三章聚焦不确定环境下的决策规划问题,讲解系统性解决方案Contingency Planning,从理论到代码全方位掌握 [24] - 第四章讲解博弈交互式规划方法,通过Dynamic Game Model理论实现自车与他车的联合轨迹优化 [26] - 第五章新增端到端自动驾驶内容,涵盖一段式、二段式端到端以及VLM & VLA技术 [29] - 第六章提供PnC岗位面试辅导,包括简历修改、模拟面试及面试技巧传授 [31] 课程附加价值与成果 - 根据反馈,前两批近100名学员已成功获得华为、百度、地平线、Momenta、小米、极氪及蔚小理等公司的offer [10] - 讲师宁远老师将提供一对一简历修改和Offer选择指导,实现保姆级陪伴 [10] - 课程提供价值1000元以上的附加福利,包括首次免费简历修改(价值500元)和赠送基础课程或满减券(价值500元) [33][36] - 学员在开课一周内仍可对导师专业性提出质疑,经核实后可申请全额退款 [43]
繁华落幕,人形机器人或将进入寒冬
自动驾驶之心· 2025-10-30 08:04
行业现状与市场预期 - 人形机器人行业面临普遍不及预期的状况,国外公司的表现和专家预言均不乐观 [4][5] - 特斯拉Optimus Gen2因发热、灵巧手短命问题暂停今年量产计划,Gen3再次跳票至明年第一季度 [5] - Figure 03被爆出存在多次拍摄剪辑问题,Meta首席AI科学家LeCun认为机器人行业远未实现真正智能,Google DeepMind负责人预计人形机器人进入家庭市场还需5-10年 [6] - 国内市场呈现虚假繁荣,订单多为左手倒右手、无需交付的框架订单或远期订单 [7] 技术瓶颈与核心挑战 - 硬件繁荣带来误区,误以为软件跟进是迟早之事,但过去50年硬件虽经翻天覆地变化(如宇树电驱打败波士顿动力液压技术)却仍未实现机器人大规模实用化普及 [8][9] - 本质卡点在于当前AI技术能否让人形机器人行业涌现智能仍存巨大疑问 [10] - 现有技术多基于VLA在特定场景下训练,可完成叠衣服、分拣包裹等任务,但缺乏泛化能力,无法适应家庭环境 [13][14] - 视频学习技术虽被特斯拉AI负责人及科研论文强调,但尚无公司能证明其可实现灵巧手的泛化操作,技术卡点包括强化学习奖励函数设计、手部识别精准度、逆动力学模型准确率等 [15][17] - 视频学习和世界模型仍处于大公司预研阶段,远未到落地阶段,多数公司(包括谷歌DeepMind)仍采用真机采集操作 [19] 潜在机遇与发展路径 - 行业存在两个不确定因素:特斯拉Optimus Gen3是否可超预期,以及硬件极致化能开拓何种市场 [19][24] - 特斯拉Optimus Gen3被寄予厚望,马斯克称其为无与伦比的产品,若明年第一季度展示失败则行业预期可能消耗殆尽 [20][21][22] - 宇树科技通过将硬件做到极致,走出泛娱乐化机器人道路,为行业提供了卖铲子式的发展路径,即使通用AI遇冷,泛娱乐路线研究仍会持续 [25][26] - 参考新能源汽车早期寒冬后的技术迭代与爆发,当前人形机器人的不及预期可能是一种蓄力 [27]
IROS'25冠军方案:X-VLA重磅开源,全面刷新机器人SOTA!
自动驾驶之心· 2025-10-30 08:04
模型核心亮点与性能 - 清华大学与上海人工智能实验室联合发布全新通用跨本体具身基座模型X-VLA,该模型是首个实现120分钟无辅助自主叠衣任务的全开源模型[2] - X-VLA以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,并在IROS-AGIBOT World Challenge上夺得冠军[2] - 模型具备四大核心亮点:率先实现超长时序灵巧操作任务的全流程开源、仅0.9B超轻量参数即实现SOTA性能、通过创新技术打破大规模异构数据训练难题、完整公开模型参数代码与训练数据[7] 技术突破与创新方法 - 引入面向本体泛化的Soft-Prompt机制,动态编码机器人硬件配置信息为连续表征,显著增强模型对异构机器人平台的适应能力[16] - 采用基于功能分工的多模态编码策略,对主视角和辅助视角图像进行分治编码,优化计算资源分配并提升信息处理通量[16] - 动作生成模块采用先进的flow-matching技术,以概率生成方式建模机器人动作序列,增强动作轨迹平滑性与环境鲁棒性[17] 仿真与实机测试表现 - 在五大权威仿真基准测试中,X-VLA以0.9B参数在多个关键指标上超越现有SOTA模型,如在Simpler基准上达到95.8分,在LIBERO基准上平均达到98.1分[25] - X-VLA的预训练缩放定律曲线呈现优异线性增长趋势,验证了其架构的强大可扩展性[22] - 在真实机器人平台上,X-VLA成功完成无限时长的自主叠衣任务,展示了应对复杂长程任务的卓越能力[27] 行业影响与竞争优势 - X-VLA为具身智能领域提供了性能强劲、完全开源的新基线与技术范式,有望推动行业技术发展[2] - 该模型在IROS-2025 AGIBOT World Challenge中从全球23个国家431支顶尖战队中脱颖而出,获得全球第一名[4][5] - 基于高质量预训练基座,X-VLA在后训练阶段展现出极高数据效率与稳定性,只需中小规模场景专属数据微调即可达到SOTA性能[23]
地平线HSD的确值得留意
自动驾驶之心· 2025-10-29 11:30
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA截至2025年10月的量产版本[5] - 试驾过程中除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面均表现良好,全程几乎没有调整速度的欲望[6] - 地平线HSD技术架构为车端视觉信息输入、输出轨迹的VA式端到端,激光雷达定位为安全冗余,云端有语言介入,认为VA式端到端还有很大潜力可挖[5] 理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时成都L7 VLA与北京i6 VLA的量产版本[5] - 无法明确判断2025年10月杭州体验的HSD工程车与2025年8月北京体验的理想i8 VLA工程车哪个体验更好[5] - 对VLA技术的观点是认为大量时候不需要语言,且串联式VLA对算力和带宽要求过高[5] 地平线团队合作与产品差异 - 接触的三个地平线智驾团队成员诚实度很高,主动详细说明系统在极端天气、非标场景、复杂博弈下的局限性[7] - 地平线HSD在不同车型上表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型则很一般,差异原因包括芯片算力不同及与车企配合度有关[6] - 地平线与主机厂合作中,车机与智驾适配需高度尊重主机厂意见,导致SR界面布局和导航操作逻辑存在不符合直觉的问题[7] 行业技术发展现状 - 地平线团队成员评估HSD目前可能有FSD V13版本约60%的水平,但属于非严谨论证[7] - HUD和车机界面构成智驾体验重要部分,SR界面应放在左边而非右边,更改导航目的地按钮的设计也需要优化[7] - 行业中存在VA式端到端与VLA两种技术路径的探讨,VA式端到端被认为还有很大潜力[5]
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 08:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]