Workflow
端到端自动驾驶系统
icon
搜索文档
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 08:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
专访 || 清华大学车辆与运载学院教授李升波:我们正在推动一条全新的端到端自动驾驶路线
中国汽车报网· 2025-10-23 17:58
政策监管动态 - 近期智能网联汽车领域政策频出,9月15日《关于加强智能网联新能源汽车产品召回、生产一致性监督管理与规范宣传的通知》结束意见征集,9月17日工信部就《智能网联汽车组合驾驶辅助系统安全要求》强制性国家标准公开征求意见,与今年2月已实施的《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》共同构成对行业的更高要求[1] - 政府主管部门加强监管旨在纠正行业将“辅助驾驶”宣传为“自动驾驶”的夸大营销行为,引导消费者正确认识和使用功能,促使技术发展回归产品本色,对行业健康有序发展具有积极意义[4] 行业现状与核心挑战 - “智驾平权”概念反映了行业通过技术创新和成本控制将高端功能普及至中低端车型的积极心态,但其核心降本必须以保证安全为前提,硬件配置降低带来的性能损失需由更高质量的软件系统加倍弥补,否则将存在极大安全隐患[2] - 当前所有量产车的智驾功能均属辅助驾驶而非自动驾驶,关键区别在于由谁监控行车风险及由谁负责事故责任,辅助驾驶要求驾驶员全程监控并准备接管,事故责任由驾驶员承担[3] - 行业存在产品进化与激进营销不匹配的现象,个别企业的不当宣传是对用户的误导和对公众安全的不负责任[3] 技术路线演进:从规则驱动到端到端 - 智能驾驶系统存在两大技术路线:以专家规则为核心的分模块架构和以神经网络为载体的端到端方案,代表了从规则驱动向数据驱动学习系统的技术演进[5] - 端到端系统的本质是通过训练神经网络建立从感知信号到控制命令的直接映射,其核心特征是所有模块均实现神经网络化,而非单一黑箱网络,可分为多段式或一段式架构[6] - 分段式端到端因更适合团队分工而具备更强工程落地性,但模块间信息传递存在损失;一段式端到端采用隐层特征传输,理论上具有更高性能上限[6] - 端到端概念可追溯至1988年的ALVINN系统,特斯拉于2023年底发布的FSD V12版本实现了该技术的首次商业化突破,展示了优秀驾驶能力[7] 中国技术发展路径与成果 - 面对数据匮乏与算力不足的资源瓶颈,清华大学车辆学院于2018年同期探索出“数据不足仿真补,算力落后算法超”的创新路线,以仿真数据为主、实车数据为辅,结合强化学习与模仿学习进行训练[8] - 该方案相比特斯拉的“实车数据+模仿学习”路线,在训练成本和模型能力上具显著优势,高保真仿真数据可海量廉价生成降低成本,强化学习通过自主环境探索实现性能持续提升,具备更高能力上限[8] - 团队通过研发一系列核心算法与工具软件,于2023年底推出国内首套全栈神经网络化的端到端自动驾驶系统iDrive,并在城市开放道路测试验证,标志着中国探索出与国情相符的新技术路径[9] 未来发展方向:车路云一体化 - 破解单车智能能力边界与安全性难题的核心思路是从“单车智能”走向“车路云一体化”,利用路的全局视野弥补车的感知局限,这是契合中国基建优势与管理模式的中国方案[13] - 车路云框架下,行业可合力构建更大规模数据闭环系统,通过路侧设备提供全局视角和超视距预警,结合云控平台强大算力进行数据清洗筛选与虚拟场景生成,融合真实与虚拟数据建立双阶段训练范式,提升安全性并降低成本[14] - 未来端到端模型将向多模态演进,例如视觉-语言-动作模型,参数规模预计可达千亿甚至万亿级,具备与人类相仿的语言交互和理解能力,未来三五年内有望实用化[14] - 训练算法层面,强化学习的重要性将进一步加强,模型微调与世界模型的结合可提升数据泛化性与训练效率,赋予系统自进化能力[15] 安全性与性能考量 - 在汽车这一安全敏感场景中,不能仅关注算法在常规情况下的平均性能,更要重视极端复杂场景下的保底性能,确保算法维持人类可接受的安全底线是系统研发最核心的考量[15][16]
“黑羊”绝影:如何给车企铺AI路?
21世纪经济报道· 2025-08-15 18:50
公司战略与规划 - 商汤绝影计划在2025年进一步扩大交付范围并新增合作车企包括广汽埃安和一汽红旗 [1] - 公司计划基于英伟达Thor平台开发更高阶的端到端自动驾驶方案 [1] - 商汤科技花费七年时间发展AI技术 现通过绝影业务验证AI在汽车产业的价值 [1] 技术发展与突破 - 商汤绝影CEO王晓刚在2017年就与本田合作L4自动驾驶项目 但因算力瓶颈和行业认知滞后未能落地 [2] - 特斯拉FSD V12的量产推动行业变革 促使商汤绝影加速追赶端到端技术 [2] - 公司2024年北京车展展示UniAD一段式端到端实车部署技术 [2] - 与东风汽车联合开发的端到端自动驾驶系统将于2024年底实现量产落地 [2] 行业合作与客户拓展 - 新增重要合作伙伴包括广汽埃安和一汽红旗等车企 [1] - 与东风汽车建立深度合作关系 共同开发端到端自动驾驶系统 [2] - 早期曾与本田合作L4自动驾驶项目 积累行业经验 [2]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]