自动驾驶之心
搜索文档
从目前的信息来看,端到端的落地上限应该很高......
自动驾驶之心· 2025-11-12 08:04
行业技术趋势 - 地平线HSD表现超预期,一段式端到端方案重新成为行业量产重心,其性能上限很高 [1] - 小鹏VLA2.0采用视觉和语言并行输入,印证了VLA是技术核心 [1] - 行业整体技术路线正从两段式端到端向一段式端到端过渡,并进一步向VLA演进,多家团队已进行相应调整 [1] 课程核心内容 - 课程重点聚焦量产实践,涵盖一段式、两段式端到端、强化学习、导航应用、轨迹优化及兜底方案 [3] - 课程仅限40名学员,旨在面向就业直击落地 [3] 讲师背景 - 讲师王路拥有C9本科和QS50博士学历,发表多篇CCF-A/B论文 [5] - 现任国内顶级Tier1算法专家,从事大模型、世界模型等前沿算法的预研与量产,具备丰富的端到端算法研发和实战经验 [5] 课程大纲详解 - **第一章**:介绍主流的感知模型一体化架构和经典的规控learning化方案,以及端到端开源数据集和评测方式 [8] - **第二章**:讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递、优缺点分析,并通过PLUTO算法实战加深理解 [9] - **第三章**:介绍一段式端到端算法框架,其可实现信息无损传递,性能优于两段式,涵盖基于VLA和Diffusion等方法,并通过VAD系列进行实战 [10] - **第四章**:讲解导航地图的格式、内容信息,及其在端到端模型中的编码与嵌入方式,以有效发挥导航能力 [11] - **第五章**:重点介绍强化学习算法及训练策略,以弥补纯模仿学习的不足,实现更好的泛化能力 [12] - **第六章**:进行NN Planner项目实战,包括基于模仿学习(扩散模型、自回归算法)和强化学习的结合应用 [13] - **第七章**:介绍量产中的轨迹平滑优化等兜底方案,包括多模态轨迹打分搜索和轨迹平滑算法,确保输出轨迹稳定可靠 [14] - **第八章**:从数据、模型、场景、规则等多视角分享量产经验,讲解如何选用合适策略快速提升系统能力边界 [15] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学,辅以VIP群答疑和三次线上答疑 [16] - 课程章节按周解锁,例如12月7日解锁第二章,12月14日解锁第三章等 [16][18] - 学员需自备GPU,推荐算力在4090及以上,并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型等,具备Python、PyTorch及数学基础 [17]
李飞飞聊AI下一个十年:构建真正的空间智能
自动驾驶之心· 2025-11-12 08:04
文章核心观点 - 空间智能是人工智能的下一个前沿,旨在构建能够理解和交互物理及虚拟世界的“世界模型”,这将重塑创造力、机器人技术和科学发现等领域[5][16] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色,但在空间理解、物理推理和与环境交互方面存在根本性局限,与人类能力相距甚远[5][14][15] - 实现空间智能需要构建具备生成性、多模态性和交互性的世界模型,这是一项超越以往AI挑战的复杂任务,需要新的训练方法、大规模数据和模型架构[17][21][22] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常行为(如停车、接钥匙)到专业活动(如消防员救援、科学发现)的物理世界互动[10][13] - 该能力是人类想象力和创造力的基础,从史前洞穴壁画到现代电影、游戏和工业设计,都依赖于基于空间的想象力[10] - 在人类文明进程中,空间智能在关键科学发现(如埃拉托色尼计算地球周长、沃森和克里克发现DNA双螺旋结构)中扮演了核心角色[11][12] 当前AI在空间智能方面的局限 - 最先进的多模态模型在估算距离、方向、大小等基本空间任务上表现仅略高于随机水平,在“心智旋转”测试中能力极为有限[14] - AI生成的视频虽令人惊叹,但往往在数秒后便失去连贯性,无法预测基本物理规律,也无法识别捷径或穿越迷宫[14] - 当前AI对世界的理解是割裂的,缺乏人类那种将事物在空间上的关系、意义及彼此关联进行整体性理解的能力[15] 构建空间智能世界模型的核心框架 - **生成性**:模型需能生成在语义、几何和物理层面保持一致的虚拟世界,并且对当前世界的理解必须与过去状态保持连贯[18] - **多模态性**:模型应能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并预测或生成完整的世界状态[19] - **交互性**:当动作或目标成为输入时,模型需能生成与先前世界状态、物理规律相一致的下一个世界状态,甚至预测实现目标所需的后续行动[20] 实现世界模型的技术挑战与研究方向 - **新的通用训练任务函数**:需要定义能反映几何与物理规律的通用目标函数,其复杂程度远超语言模型中的“下一token预测”[23] - **大规模训练数据**:需研发能从互联网海量二维图像或视频帧中提取深层空间信息的算法,并利用合成数据及深度、触觉等额外模态[24] - **新型模型架构与表征学习**:需突破现有MLLM与视频扩散模型范式,探索具备三维或四维感知能力的分词、上下文和记忆机制[25] 空间智能的潜在应用与影响 - **创造力与叙事**:工具如World Labs的Marble平台正赋能电影制作人、游戏设计师和建筑师快速创建可自由探索的三维世界,颠覆传统创作流程[32][33] - **机器人技术**:世界模型将通过提供可扩展的训练数据解决方案,缩小模拟与现实差距,加速具备泛化能力的机器人的发展[35][36] - **科学、医疗与教育**:空间智能系统能模拟实验、加速药物发现、实现沉浸式学习,在拯救生命和加速科学发现方面具有深远影响[38][39][40]
GEN-0:史上规模最庞大多元的具身真实世界操作数据集!
自动驾驶之心· 2025-11-11 08:00
文章核心观点 - GEN-0是一种新型具身基础模型,专为基于高保真原始物理交互进行多模态训练而构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] - 该模型在机器人领域首次观察到明确的扩展定律,证明模型性能随算力、数据和参数规模增长而持续提升 [6][14][15] - 模型在70亿参数规模出现智能“相变”临界点,突破了过去机器人领域模型规模和数据量的限制 [6][11][13] 模型架构与技术突破 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性“谐波推理”使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化与扩展定律 - 在70亿参数临界点观察到相变,较小模型呈现固化态势,而更大模型持续提升,目前模型已扩展至100亿+参数规模 [6][11] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][15] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [15][16][18] 数据规模与演进 - 基于超27万小时真实世界异构操控数据进行预训练,该数据集正以每周1万小时的速度持续扩张且不断加速 [6][20] - 数据采集自全球数千个家庭、仓库及工作场所的多样化作业场景,由覆盖全球的硬件网络及数千台数据采集设备驱动 [20][22] - 正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [22]
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2025-11-11 08:00
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分[1] 课程核心内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,深入理解BEV感知、多模态大模型等关键技术,可复现扩散模型、VLA等主流算法框架[5] - 学完全部课程后大部分学员能达到1年左右端到端自动驾驶算法工程师水平,受益于实习、校招、社招[5] 主讲导师背景 - 导师Jason拥有C9本科和QS前50 PhD学历,已发表CCF-A论文2篇及CCF-B论文若干[6] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,主持完成多项自动驾驶感知和端到端算法产品量产交付[6] 论文辅导服务成果 - 近3年辅导学员超过400名,中稿率高达96%[8] - 学员成功案例覆盖SCI 2区、3区期刊及CVPR、emnlp等顶会,辅导周期通常为2-4个月[9] - 服务方向包括三维重建、SLAM、点云处理、VLA、机器人导航、计算机视觉等,学员需自带简历并具备一定pytorch基础[12] 论文辅导流程 - 全流程服务涵盖选题、文献调研、idea验证、代码实现、实验设计、写作润色、投稿及中稿[11][15] - 具体步骤包括确定选题、精读文献、复现baseline、方法论讲解、代码debug、实验设计、论文写作及审稿回复等27个环节[11] - 提供精准导师匹配系统,根据学员研究方向、目标期刊、基础水平从300+导师中筛选3-5位最契合人选[18] 附加价值与服务保障 - 优秀学员可获得清北、MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供基础课程供零基础学员自主学习,承诺6个月可完成一篇小论文[18] - 支持预收定金后与名师meeting,不满意可免费更换老师或退款[19]
一场关于自动驾驶VLA和世界模型的深度讨论!下周一不见不散~
自动驾驶之心· 2025-11-11 08:00
直播活动概览 - 活动主题为自动驾驶世界模型和VLA的深度探讨 重点关注FSD v14是否包含VLA技术以及WA与VLA谁将定义下一代自动驾驶方案 [4][5] - 直播时间为11月17日晚 由自动驾驶之心运营负责人Gloria主持 [3][4] - 完整版深度内容已独家上线知识星球「自动驾驶之心」涵盖所有技术细节、QA及未公开彩蛋 [12] 主讲嘉宾背景 - 詹锟为理想汽车视觉-语言-动作团队高级总监 硕士毕业于北京航空航天大学自动化专业 2017年加入百度Apollo负责行为预测 2021年加入理想汽车从零搭建自动驾驶技术栈 领导团队实现高速NoA2022年 城市NoA2023年 端到端+VLM双系统架构2024年以及VLA框架2025年等里程碑 [1] - 许凌云为中国科学院博士 卡内基梅隆机器人研究所博士后 发表12篇机器人领域顶级期刊或会议文章 获DARPA SUBT无人车挑战赛2019年世界冠军 2019年至2024年专注智能驾驶算法开发 主导多个行车和泊车量产项目落地 现任长安汽车泊车团队负责人 [2] - 其他参与嘉宾包括博世中央研究院高级算法科学家江岸青 上海交通大学AutoLab创始人张志鹏 以及深度流光联合创始人CTO刘斯坦 [3][4] 核心讨论议题 - 探讨特斯拉FSD v14有哪些技术值得国内关注 [8] - 世界模型和VLA未来发展方向探讨 是否可能走向融合统一 [8] - 讨论数据和算力高需求导致学术界难以参与智驾游戏的情况下 学术界还有哪些机会 [8]
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-11 08:00
文章核心观点 - 文章系统总结了公司在自动驾驶算法系统构建方面的技术演进路径,涵盖从感知到规划、仿真评测及基础模型的完整技术栈 [2][4][5] - 技术路径呈现递进关系:首先构建端侧策略(从感知到端到端规划),随后为支持端到端模型的闭环评测与训练构建仿真系统,最终通过大数据与大参数构建智驾基础模型以激发潜能 [4] - 公司认为端到端模型主导的方案已趋成熟,下一阶段竞争焦点将集中在高效精准的评测系统以及智驾基础模型的研发上 [30] 3D融合感知框架(Sparse4D系列) - 公司提出Sparse4D系列作为BEV方案的替代,其核心采用稀疏query与内外参投影采样,直接从多视角图像特征获得融合感知结果,理论计算复杂度显著低于BEV方案 [6][7] - Sparse4D v1基础版本采用deformable aggregation算子实现纯稀疏范式融合;v2将时序融合改为recurrent形式,时序复杂度从O(T)降至O(1),并优化了算子实现以提升训练推理速度与性能 [7][9] - Sparse4D v3通过temporal denoising、decouple attention等技术进一步提升检测能力与收敛速度,并以简洁方式实现联合检测与跟踪,在nuScenes数据集camera-only detection和tracking榜单持续位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D感知基础上拓展,集成在线建图与简单的运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 针对稀疏特征输入可能丢失信息的质疑,公司指出大量负样本query能覆盖所有可视范围并受规划损失影响,确保非白名单物体避障能力;当前瓶颈在于规划解码器结构简单且仅进行开环评测,闭环性能需通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - 公司提出EDA轨迹预测方案,通过动态更新的anchor及NMS匹配策略解决轨迹预测中的正负样本分配核心问题,有效建模多峰分布并具备即插即用优势 [16][17] - 轨迹预测与交通流仿真在输入输出形式上相似,但后者需闭环rollout以建模多交通参与者相互关系;公司提出的UniMM框架统一了主流交通流仿真模型,并分析了影响性能的关键设计因素 [19][20] 传感器仿真(DriveCamSim) - 为支持端到端模型的高效精准评测,公司开发了DriveCamSim传感器仿真系统,其通过显式投影约束3D-2D和时序一致性,能生成任意帧率、相机内外参及数量下的图像,在可控性与拟真性上优于基于3DGS或纯Attention的方案 [22][23][24] - 模型可适应多种条件输入包括3D边界框、地图、自车位姿等,具备良好落地潜力但尚未充分挖掘 [24] 智驾基础大模型(LATR) - LATR项目旨在构建智驾领域基础大模型,首先通过Mask Image Modeling方式在海量数据上进行无监督预训练,使模型理解场景语义、空间及时空关系 [26] - 模型采用decoder-only架构实现多任务统一,新增任务仅需添加少量参数,已成功融合3D检测跟踪、在线建图、轨迹预测、规划等7个任务,效果达到与SparseDrive相当水平,证明了架构有效性 [27]
一汽或成零跑汽车最大股东,分步收购方案已获批!
自动驾驶之心· 2025-11-10 16:12
收购传闻与战略合作 - 中国经济网报道称,一汽集团将通过定向增发收购零跑汽车股权,并最终成为其第一大股东,该方案据称已获批准并计划于11月17日官宣,但零跑汽车官方明确表示消息不实 [2] - 此前市场曾传闻中国一汽计划初步要约收购零跑汽车约10%股份,当时零跑汽车表示“不予置评”,中国一汽也表示此为“不实信息” [4] - 中国一汽与零跑汽车已于今年3月3日签署《战略合作谅解备忘录》,双方计划在新能源乘用车联合开发及零部件合作,并探讨深化资本合作的可行性,但该协议未涉及股权合作 [6] 公司财务与运营表现 - 2025年上半年,零跑汽车营业收入为242.50亿元,同比增长174.1%,权益持有人应占净利润为0.3亿元,相比去年同期净亏损22.1亿元,首次实现半年度净利转正 [7] - 2025年上半年公司毛利为34.26亿元,相比去年同期的1.00亿元大幅增长,毛利率显著改善 [8] - 2025年上半年零跑汽车累计交付22.17万辆,同比增长155.68%,公司年内销量目标为50-60万辆,并力争实现全年盈利 [7] 近期销量与市场地位 - 今年前10月,零跑汽车累计销量为46.58万辆,同比增长120.72%,其中10月交付7.03万辆,同比增长84.11%,刷新了造车新势力单月交付最高纪录 [8] - 零跑汽车已连续8个月领跑新势力交付榜,显示出强劲的市场增长势头 [8] - 公司产品线已布局零跑C11、零跑T03、零跑C16、零跑C10、零跑C01、零跑B10、零跑B01等多款车型 [8]
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 11:36
理想VLA技术发展路线 - 短期目标:致力于打造训练的强化闭环,预计2025年底完成搭建,2026年初将展现出良好表现,使车辆具备持续成长的能力[2] - 中期目标:强化闭环完善后,可能在中国市场超越特斯拉,主要优势在于拥有比特斯拉更便利的闭环迭代环境[3] - 长期规划:VLA技术有望实现L4级别自动驾驶,但未来仍需新技术支持[4] - 业务流程变革:VLA结合强化学习不仅是技术变革,更是业务大变革,预计需要1-2年迭代周期,2027年行业将发生重大变化[3] 理想VLA技术实现路径 - 当前限制:由于安全考虑和潜在舆情风险,系统设置了较多安全限制,尚未实现训练的强化闭环[4] - 未来机制:强化闭环系统可自动识别问题(如用户接管、驾驶顿挫、急刹车),自动收集数据并回传进行强化训练,完成迭代后上线[4] - 技术倾向:认为驾驶所需智能程度相对较低[5];业务流程改革完成后,车端算力与模型参数需求不会要求过大[5] - 具体锚点:车端算力1000或2000TOPS,云端模型32B参数,认为将320B模型蒸馏成4B很不合适[6] 理想自动驾驶组织架构调整 - 组织变革:智驾部门调整为11个二级部门,负责人均具备业务背景而非纯管理出身[12] - 部门拆分:原模型算法团队拆分为基础模型部、VLA模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部[12] - 管理理念:智驾核心管理者从内部培养,Research/算法研究可从外部引进[12] - 取消封闭开发:因不再是追赶者且收益降低,同时体现员工关怀[12] 理想领导层与团队建设 - 李想参与:2025年2月底提出加快交付VLA,认为模仿学习本质不具备人类智能[11];每月与校招生沟通一次[11] - 团队传承:第一代骨干完成0到1突破后部分离职,目前第三代以詹锟、湛逸飞为主,加上9个二级部门负责人[13] - 领导作用:在资源投入、持续保障以及对AI技术路线的关键判断方面发挥核心作用[13] - 精力分配:50%精力用于日常管理,30%用于中长期战略规划,20%关注技术和业务进展[18] 行业竞争与技术观点 - 对VLA态度:认为友商反对VLA恰恰证明该技术方向的正确性[14] - 技术对标:非常关注FSD V14进展,团队将在美国进行实车体验;认为与Ashok在ICCV 2025演讲理念高度一致[18] - 模型对比:任少卿提到的世界模型与理想VLA模型属同一层级,华为的W Engine类似理想所说的世界模型[18] - 数据挑战:即使有大量数据也无法穷尽所有场景,需要系统具备人类思维推理能力而非简单泛化[18] 资源配置与发展规划 - 算力规划:推理算力与训练算力各占一半较为合理;2024年云端算力达8 EFLOPS,价值约10亿人民币[18] - 模型开发:正在研发42B云端模型,希望参数量不要过大[18] - 芯片策略:自研芯片若单颗效果不佳将采用两颗方案[18] - 团队规模:2023年公司主基调为扩招,但认为团队规模只需比特斯拉稍多即可[18] - 指标预期:2027年可能不再使用MPI指标,因接管率将普遍较低[18]
合作了一款高性价比3D扫描仪!
自动驾驶之心· 2025-11-10 11:36
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的超高性价比3D激光扫描仪,旨在降低开发门槛 [2] - 核心价值在于轻量化设计、一键启动的高效实用三维解决方案,以多模态传感器融合算法实现厘米级精度的实时重构 [2] - 宣称是国内目前最强性价比的实景三维激光扫描仪 [2] 核心性能参数 - 点云采集速度达到每秒20万点,最远测量距离为70米,支持360°水平视角全覆盖 [2][30] - 相对精度优于3厘米,绝对精度优于5厘米,在70米距离处精度控制为±1.5厘米 [23][30] - 支持超过20万平方米的大场景扫描,建图支持实时解算 [2][23][31] - 设备功率25W,续航时间约3至4小时,重量为1.3公斤(不含电池)或1.9公斤(含电池) [23] 技术特点与系统集成 - 采用多传感器融合技术,集成激光雷达、双广角相机、深度相机、9自由度IMU及RTK模块 [14][23][35] - 实现微秒级数据同步,采用硬件IO同步触发,同步精度达微秒级,频率最高800Hz [24][35][36] - 系统基于Ubuntu 20.04,支持ROS,配备Intel N5095四核处理器(主频2.0GHz,睿频2.9GHz)及16G内存 [23] - 支持跨平台集成,可适配无人机、无人车、机械狗及人形机器人等多种负载平台 [45] 产品配置与版本 - 提供基础版本、深度相机版本、3DGS在线版本、3DGS离线版本四种配置 [58] - 基础版本首发价为19800元起,深度相机版本为23800元,3DGS在线版本为39800元 [10][58] - 设备尺寸为14.2厘米 × 9.5厘米 × 45厘米,外壳采用航空铝材质,配备5.5寸触控屏 [23] - 支持彩色点云输出,导出数据格式包括pcd、las、plv等多种通用格式 [23] 应用场景 - 可广泛应用于写字楼、停车场、工业园区、各类隧道、森林、矿场等复杂室内外场景 [39][47] - 具体应用案例包括大型园区、花园场景、老旧街道、环形花园、坡道场景及市政道路 [40][50] - 适用于地理信息数据采集、城市规划、文昌监测等领域,并为文化遗产修复研究、虚拟开发提供支持 [53][55]
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 11:36
文章核心观点 - 北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了一种名为CATG的新型端到端自动驾驶轨迹生成框架,该框架基于Constrained flow matching技术,旨在解决现有方法在行为多样性和安全约束集成方面的局限性[1][3][4] - CATG框架的核心创新在于彻底摒弃模仿学习,显式建模flow matching过程以缓解模式崩溃,并支持在生成过程中灵活注入多种条件信号和显式约束,从而实现对轨迹风格和安全性的精准调控[1][4][7] - 在ICCV NAVSIM V2端到端驾驶挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖,证明了其在规划精度和对分布外数据的稳健泛化能力[1][4][22] 技术背景与问题定义 - 端到端多模态规划是自动驾驶系统的关键方法,在模糊或高度交互的驾驶场景中尤为重要,但大多数现有方法依赖模仿学习框架,导致预测结果同质化,缺乏行为多样性[3] - 现有生成式方法如扩散模型虽能捕捉更广泛的轨迹分布,但存在模式崩溃风险,且难以将硬约束集成到生成过程中,影响了生成轨迹的安全性和可解释性[3][6] 方法论创新 - 提出基于flow matching的多模态轨迹生成器CATG,无需依赖模仿学习,支持多样化、灵活的条件控制[7] - 通过渐进式机制将可行性约束和安全约束显式集成到生成过程,利用先验感知锚点设计构建约束引导的概率流,并通过基于能量的引导将轨迹导向可行区域[7][13][17] - 将环境奖励信号作为条件输入,在推理阶段实现激进驾驶风格与保守驾驶风格之间的可控权衡[7][13] 技术实现细节 - 采用Transfuser作为感知骨干网络,从标准高斯分布中采样起点,并将目标轨迹归一化到特定区间[8] - 通过多层交叉注意力机制融合智能体查询向量、自车查询向量以及鸟瞰图特征[10][12] - 在推理阶段引入三类条件控制信号:轨迹锚点、目标点和驾驶指令,以实现对生成轨迹的灵活控制[13][16] 约束集成策略 - 约束速度场:利用预计算的速度场修正模型预测的可能存在偏差的速度场,提出"合成速度场"概念[17] - 约束中间变量:通过修正流的起点,将初始高斯随机样本替换为满足约束的锚点,间接控制最终生成结果[17] - 约束感知训练:在训练阶段通过能量函数编码约束,采用能量匹配框架进行模型训练[17] 实验设置与结果 - 模型训练分为两个阶段:第一阶段训练flow matching过程、感知模块与地图分割模块,批大小设为64,学习率未明确,共训练90轮;第二阶段仅对流传匹配过程进行微调,共训练10轮[14][18] - 在NAVSIM V2挑战赛中,CATG在多项关键指标上表现优异,例如第一阶段可驾驶区域合规性达100%,交通信号灯合规性达100%,第二阶段可驾驶区域合规性达95.4416%[19] - 最终以51.3116的扩展PDM综合得分获得亚军[19]