Autonomous Driving

搜索文档
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-13 07:33
核心观点 - 提出一个统一框架Epona,能同时生成长时高分辨率视频(512×1024,2分钟)和端到端输出连续轨迹,解决现有方法在长时程预测与实时规划上的局限[5][12] - 首创解耦时空建模架构:GPT风格Transformer处理时间动态性,双Diffusion Transformer分别负责空间渲染(VisDiT)和轨迹生成(TrajDiT)[12][18] - 实现20Hz实时轨迹规划,推理算力降低90%,支持多模态异步生成(3秒轨迹与下一帧图像并行)[12] 方法论 模型架构 - **Multimodal Spatiotemporal Transformer (MST)**:1.3B参数,12层结构,将历史驾驶场景与动作序列编码为隐式表征,压缩率提升16倍[16][26] - **Trajectory Planning Diffusion Transformer (TrajDiT)**:50M参数,采用Dual-Single-Stream DiT结构,独立处理历史隐变量与轨迹数据,支持高斯噪声迭代去噪[18] - **Next-frame Prediction Diffusion Transformer (VisDiT)**:1.2B参数,结构类似TrajDiT但集成action control,通过DCAE解码器生成图像[21] 训练策略 - **Chain-of-Forward Training**:周期性用预测帧替代真值输入,抑制自回归漂移问题,通过速度估算加速去噪过程[24] - **Temporal-aware DCAE Decoder**:在32倍下采样的DCAE中增加时空注意力层,解决视频闪烁问题,微调时仅训练解码器[25] 性能表现 视频生成 - 在FID(6.9 vs 7.5)和FVD(82.8 vs 89.4)指标上优于Vista等基线,支持120秒/600帧生成长度,远超DriveDreamer(4秒/48帧)和GAIA-1(40秒/400帧)[28] 轨迹规划 - 在NC(97.9 vs 97.8)、DAC(95.1 vs 91.9)等6项指标上接近人类水平(100),显著超越UniAD、TransFuser等相机/LiDAR融合方案[34] 技术拓展性 - 框架可延伸至闭环仿真、强化学习、行为因果解释,但当前仅支持单相机输入,未解决多传感器一致性与点云生成问题[36] 行业应用 - 自动驾驶领域首个融合图像生成与轨迹预测的世界模型,参数量达2.5B(MST+VisDiT占95%),训练资源为48张A100 GPU/60万次迭代[26][36]
Pony Ai(PONY) - 2025 Q2 - Earnings Call Transcript
2025-08-12 21:02
财务数据和关键指标变化 - 第二季度总收入达2150万美元 同比增长76% 主要受机器人出租车服务和许可应用业务强劲增长推动 [39] - 机器人出租车服务收入达150万美元 同比增长158% 其中收费服务收入增长超过300% [39][40] - 机器人卡车服务收入为950万美元 同比下降10% [41] - 许可和应用收入达1040万美元 同比增长902% [42] - 毛利率同比提升至16.1% 毛利润为350万美元 [42] - 净亏损5330万美元 去年同期为3090万美元 非GAAP净亏损4610万美元 [44] 各条业务线数据和关键指标变化 - 机器人出租车业务注册用户数同比增长136% 用户满意度保持在4.8分以上(满分5分) [17] - 第七代机器人出租车已生产200多辆 总成本比上一代降低70% [11][51] - 远程辅助与车辆比例持续改善 预计年底达到1:30 [14] - 车辆保险成本较上一周期降低18% 仅为传统出租车的一半 [14][15] - 运营区域覆盖中国一线城市2000平方公里 是旧金山市面积的20倍 [56] 各个市场数据和关键指标变化 - 中国四大一线城市均已获得完全无人驾驶商业许可 上海浦东新区获得首个完全无人驾驶商业牌照 [18] - 广州和深圳服务时间从15小时/天延长至24/7全天候运营 [19] - 国际扩张进入7个国家 包括迪拜、首尔和卢森堡 [20] - 迪拜与当地交通部门合作 计划2025年底开始试运营 [21] - 首尔获得全国许可 在江南区开展复杂环境测试 [22] - 卢森堡获得测试许可 与当地移动服务商合作开展路测 [23] 公司战略和发展方向和行业竞争 - 2025年定位为大规模生产元年 目标年底前生产1000+辆第七代机器人出租车 [10][49] - 与深圳最大出租车运营商合作 计划未来几年在深圳部署1000+辆机器人出租车 [16] - 技术发展分为三阶段:有安全员阶段→小规模完全无人驾驶→大规模完全无人驾驶运营 [28][29][30] - 系统安全性达到人类驾驶员的10倍以上 能在暴雨等极端天气下运营 [32][33] - 第七代车辆已完成200万公里公开道路测试 覆盖各种极端天气条件 [12][34] 管理层对经营环境和未来前景的评论 - 监管明确区分L2辅助驾驶和L4自动驾驶 有利于行业规范发展 [61][62] - 完全无人驾驶需要多层软硬件冗余系统 中国对此有严格测试要求 [64] - 国际扩张聚焦具有高增长潜力的战略市场 需当地政策支持和技术成熟度 [78][80] - 当前现金储备7.477亿美元 足以支持运营需求和规模化部署 [44][45] - 通过规模化生产和成本优化 有望实现正向单位经济效益 [52] 其他重要信息 - 第七代平台采用100%车规级自动驾驶套件 设计寿命60万公里 [11] - 传感器高度集成 可预组装 显著降低总成本 [11] - 新设计座舱界面提供更好的用户体验 [13] - 系统能处理复杂驾驶场景 包括盲区突然出现的工厂等极端情况 [64] 问答环节所有的提问和回答 问题: 2025年生产计划 - 目前已生产200+辆第七代车辆 生产加速势头明显 对年底前达到1000+辆目标充满信心 [48][49] - 关键零部件供应稳定 生产线已完成改造 BAIC和GAC车型均已进入量产阶段 [50] 问题: 机器人出租车收入增长驱动因素 - 收入增长主要来自中国一线城市用户需求增加和车队规模扩大 [55] - 通过优化定价和运营策略 持续提升用户参与度和服务效率 [55] 问题: 政府对L4自动驾驶的态度 - 监管明确区分L2和L4系统 有助于公众正确理解两者差异 [61][62] - L4系统需承担全部责任 因此安全标准更高 需要多层冗余架构 [63][64] 问题: 新市场拓展技术要求 - 核心是处理各种极端情况的能力 不同地区的场景本质相似 [67] - 软件系统已实现完全无人驾驶和24/7运营 能快速适应新环境 [68][69] 问题: 香港IPO计划 - 不评论市场传言 将密切关注市场状况 探索资本市场机会以最大化股东价值 [74] 问题: 海外市场扩张计划 - 聚焦具有高增长潜力的市场 需要当地政策支持和合作伙伴 [78] - 目前除中美外 多数国家仅允许有安全员的测试 商业化仍处于试点阶段 [80][82]
Pony Ai(PONY) - 2025 Q2 - Earnings Call Presentation
2025-08-12 20:00
业绩总结 - 2025年第二季度注册用户增长达到136%[7] - 2025年第二季度总收入增长76%[7] - 2025年第二季度收费收入增长超过300%[7] - 2025年第二季度Robotaxi服务收入增长158%[35] - 2025年第二季度Robotruck服务收入同比增长901.8%[69] - 2025年第二季度Robotaxi服务收入为10.6百万美元,同比增长157.8%[65] - 2025年第二季度Robotruck服务收入为9.5百万美元,同比下降9.9%[65] 用户数据与市场表现 - 2025年第二季度来自收费Robotaxi乘车的收入显著增长,主要受益于用户采纳率的提升和一线城市需求的增长[70] - 截至2025年6月,累计自主驾驶里程超过620万公里[44] 新产品与技术研发 - 截至2025年8月,Gen-7车辆生产超过200辆,预计到2025年底将达到1000辆[7] 财务表现 - 2024年第二季度的非GAAP毛利为28.7百万美元,毛利率为7.6%[72] - 2025年第二季度的非GAAP毛利为44.1百万美元,毛利率为16.1%[72] - 2024年第二季度的非GAAP净亏损为30.9百万美元,净亏损率为248.2%[72] - 2025年第二季度的非GAAP净亏损为53.3百万美元,净亏损率为248.3%[72] - 2024年第二季度的GAAP净亏损为30.3百万美元,净亏损率为297.9%[72] - 2025年第二季度的GAAP净亏损为46.1百万美元,净亏损率为252.0%[72] - 2024年第二季度的非GAAP运营亏损率为0.3%[72] - 2025年第二季度的非GAAP运营亏损率为3.5%[72] - 2024年第二季度的自由现金流为-18.0百万美元,2025年第二季度为-25.4百万美元[75] - 当前现金储备足以支持第七代供应链准备和未来增长[74]
端到端盛行的当下,轨迹预测这个方向还有研究价值吗?
自动驾驶之心· 2025-08-12 16:05
端到端与轨迹预测研究价值 - 尽管端到端方案流行,但分层方案仍被广泛采用,轨迹预测作为核心算法仍是研究热点[1] - 行业持续关注联合轨迹预测和目标轨迹预测,相关学术会议和期刊保持高产出量[1] - 多智能体轨迹预测在自动驾驶、智能监控等领域具有关键应用价值,但面临行为不确定性和多模态性挑战[1] 扩散模型技术突破 - LeapfrogDiffusionModel(LED)采用可训练跳跃初始化器,实现19-30倍加速并在NBA/NFL等数据集提升精度[2] - MixedGaussianFlow(MGF)通过混合高斯先验匹配多峰分布,在UCY/ETH数据集达到SOTA性能[2] - MPMNet创新性使用运动模式记忆库引导扩散模型生成多样化轨迹[2] 课程技术体系 - 研究框架融合扩散生成机制、社会交互建模与条件控制机制[3] - 验证数据集覆盖ETH/UCY/SDD等主流基准,对比LED/MGF/SingularTrajectory等方法[3] - 预期产出包括算法框架、定量分析、可视化成果及高水平论文[3] 课程培养目标 - 构建轨迹预测知识体系,衔接理论知识与代码实践[6] - 提供论文创新思路到投稿的全流程支持,包含写作方法论与修稿指导[6] - 通过12周科研+2周论文指导+10周维护期实现论文初稿产出[9] 技术资源支持 - 提供ETH/UCY/SDD等预处理数据集及开源框架(LED/SingularTrajectory/MGF等)[20][21][22] - 重点论文覆盖CVPR 2023-2024最新成果,包括LED/MGF/MPMNet等创新模型[23] - 课程安排包含14周系统训练,涵盖扩散模型原理、社会交互建模到投稿全流程[24][25] 教学服务体系 - "2+1"师资配置(教授+行业导师+班主任)提供全周期学术支持[16][17] - 包含学前评估、个性化教学跟踪、学术复习等标准化流程[18] - 产出包含论文初稿、结业证书及推荐信(优秀学员)[19] 学员能力要求 - 需掌握Python/PyTorch及Linux开发基础,GPU配置要求16GB内存+4GB显存[10][12][15] - 学习强度要求每周1-2小时自学,按时完成作业并保持全勤[15] - 提供基础补齐课程(深度学习/PyTorch入门)支持零基础学员[14][26]
自动驾驶论文速递 | 端到端、分割、轨迹规划、仿真等~
自动驾驶之心· 2025-08-09 21:26
自动驾驶技术研究进展 - 斯坦福大学和微软提出DRIVE框架 实现0%软约束违反率 在inD、highD和RoundD数据集上验证了轨迹平滑性和泛化能力 [2][6] - DRIVE框架通过指数族似然建模学习概率性软约束 克服传统方法依赖固定约束形式的局限 [6] - 北京交通大学与海南大学开发混合学习-优化轨迹规划框架 高速公路场景成功率97% 实时规划性能54ms [11][12] - 美团与中山大学团队提出RoboTron-Sim技术 在nuScenes测试中实现困难场景碰撞率降低51.3% 轨迹精度提升51.5% [18][19][23] - 安徽大学团队提出SAV框架 在VehicleSeg10K数据集上达到81.23% mIoU 超越之前最佳方法4.33% [34][35][40] 算法创新与框架设计 - DRIVE框架将学习到的约束分布嵌入凸优化规划模块 支持数据驱动的约束泛化与系统性可行性验证 [6] - 混合学习-优化框架采用GNN预测速度剖面 MIQP进行路径优化 引入车辆几何离散化线性近似降低计算复杂度 [12] - RoboTron-Sim提出场景感知提示工程和几何感知图像到自车编码器 解耦传感器特定参数 [23] - SAV框架整合车辆部件知识图谱和视觉上下文样本增强策略 构建包含11,665张图像的数据集 [40] 实验性能表现 - DRIVE框架在轨迹平滑性和泛化能力上表现优异 软约束违反率为0% [6] - 混合学习-优化框架在复杂紧急场景中成功率超97% 平均规划时间54ms [12][13] - RoboTron-Sim在3秒预测时域L2距离平均0.23米 碰撞率0.26% 显著优于对比模型 [28] - SAV框架在车辆部件分割任务上mIoU达81.23% 建立包含13个部件类别的基准数据集 [34][40] 行业资源与社区建设 - 自动驾驶之心社区梳理40+技术路线 涵盖感知、规划、控制等方向 [45][46] - 社区提供自动驾驶数据集汇总 包含近百个数据集和标注工具 [46] - 开设感知融合、多传感器标定、SLAM等系列视频教程 与多家公司建立内推机制 [47] - 整理自动驾驶领域企业介绍、高校团队、会议信息等资源 [46]
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-08-09 00:04
自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型,通过自然语言对话触发自动驾驶辅助功能,并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型,支持视觉识别、物体定位、文档解析和长视频理解,旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集,包含10,000个真实驾驶场景和超过80小时视频,通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对,数据量较小 [7] - 微调过程通过Web UI配置参数,训练日志显示loss进度,微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时,比原生Qwen2.5-VL-7B-Instruct模型更具参考价值,原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息,并给出置信度(如多雨天气置信度0.978,宽阔道路置信度0.659) [10] - 模型可评估自动驾驶风险,如识别交通信号灯、其他车辆(置信度0.656)和行人(概率43.064%) [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区,300+自动驾驶公司与科研机构参与,覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]
重庆一“萝卜快跑”无人驾驶网约车载客坠入施工沟槽
凤凰网· 2025-08-07 17:30
事件概述 - 百度Apollo旗下自动驾驶出行服务平台萝卜快跑在重庆永川区试运营期间发生安全事故 车辆在行驶过程中坠入市政施工沟槽 车内乘客在工作人员和群众协助下脱困 [1] - 截至报道发布时 萝卜快跑运营方尚未就此次事件作出公开回应 [1] 业务运营情况 - 萝卜快跑于2022年6月10日正式在重庆永川区投入商业化运营 [1] - 截至2025年3月 该平台已在永川区建立近4000个运营站点 运营覆盖面积超过130平方公里 [1]
新势力提前批,跪了。。。
自动驾驶之心· 2025-08-06 19:25
自动驾驶行业研究 - 自动驾驶行业正处于快速发展阶段,涉及多个技术方向如BEV感知、VLA、端到端自动驾驶等[23][30][41] - 行业技术热点包括3DGS与NeRF场景重建、世界模型、视觉语言模型(VLM)等前沿领域[43][45][47] - 主流技术路线涵盖感知融合、规划控制、仿真测试等多个环节[23][30] 自动驾驶技术方向 - BEV感知已成为量产方案基石,包含纯视觉和多模态方案[54] - 端到端自动驾驶包含一段式、二段式及量产方案[41] - 3D目标检测技术路线包括激光点云、单目/双目及多模态方法[56] - 多传感器融合技术包含强融合、弱融合和后融合方案[58] 行业资源与生态 - 自动驾驶领域拥有近60+数据集,涵盖感知、预测、强化学习等方向[39] - 行业主流仿真平台包括Carla、Apollo、Autoware等[23][82] - 开源项目覆盖3D检测、BEV感知、大模型应用等40+方向[37] 企业布局与人才需求 - 头部企业包括蔚小理、地平线、华为、大疆等[23][33] - 企业面试注重候选人技术深度及非技术能力如沟通、学习能力等[4][5][6][7] - 行业建立内推机制,提供岗位对接服务[13][21] 技术发展趋势 - VLA(视觉语言动作)成为2025年重点方向[49] - 扩散模型应用于数据生成、场景重建等领域[52] - 在线高精地图是无图NOA方案核心[60] - 强化学习是VLM必备组件[63]
WeRide Launches 24/7 Robotaxi Testing in Beijing, Advances Towards Full-Day Service
Globenewswire· 2025-08-06 18:15
公司动态 - 公司获得北京高级别自动驾驶示范区批准,可在晚10点至早7点进行Robotaxi夜间公开道路测试 [1] - 此次夜间测试是公司在北京构建24/7自动驾驶出行网络的关键一步 [1] - 公司已在4个国家的10个城市开展Robotaxi测试或运营,累计拥有2200天公开道路安全经验 [5] - 2025年5月公司在广州推出中国首个一线城市24/7自动驾驶出行网络 [5] 技术能力 - 公司Robotaxi配备20多个传感器,包括高动态摄像头和高线数激光雷达 [3] - 采用专有多传感器融合算法和HPC高性能计算平台,实现200米范围内360度无盲区探测 [3] - 开发智能传感器清洁系统,可自动检测污垢和湿气并触发清洁 [4] - 系统能在低光照和恶劣天气下保持稳定感知和快速决策 [3][4] 市场地位 - 公司是全球自动驾驶行业领导者,也是首家上市的Robotaxi企业 [9] - 已在10个国家的30多个城市测试或运营自动驾驶车辆 [9] - 在6个市场(中国、法国、沙特、新加坡、阿联酋和美国)获得自动驾驶许可 [9] - 入选《财富》杂志2024年"未来50强"榜单 [9] 业务发展 - 公司通过WeRide One平台提供L2至L4级自动驾驶产品和服务 [9] - 服务覆盖出行、物流和环卫等多个行业 [9] - 北京24/7测试将验证公司技术和安全系统,同时填补夜间和凌晨公共交通空白 [6] - 未来将继续利用全栈自动驾驶技术和安全系统扩展出行服务 [7]
自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~
自动驾驶之心· 2025-08-05 11:09
基于可控扩散模型的生成式主动学习框架GALTraj - 提出GALTraj框架首次将可控扩散模型应用于轨迹预测的长尾问题通过尾样本感知生成技术动态增强稀有场景数据 [1] - 在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%(从0.42→0.22)整体预测误差minFDE₆降低14.7%(从0.654→0.558) [1] - 设计尾部感知生成方法对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导生成兼具真实性、多样性且保留尾部特征的场景 [2] - 在多个骨干模型(QCNet、MTR)上验证显著提升尾部样本预测性能同时改善整体预测精度 [2] 拓扑感知激光雷达扩散模型TopoLiDM - 提出TopoLiDM框架通过拓扑正则化的图扩散模型实现高保真激光雷达生成 [13] - 在KITTI-360数据集上以22.6%的FRID下降率和9.2%的MMD下降率超越现有最优方法同时保持1.68样本/秒的实时生成速度 [13] - 采用紧凑的拓扑图作为潜在表示实现了快速、可解释且高保真的LiDAR点云生成 [15] - 拓扑感知VAE模块通过图构建和多层图卷积提取潜在图表示并引入0维持久同调约束确保生成的LiDAR场景符合真实世界环境的全局拓扑规则 [15] 高效端到端自动驾驶框架FastDriveVLA - 提出基于重建的视觉Token剪枝框架FastDriveVLA通过对抗性前景-背景重建策略在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7% [21] - 设计ReconPruner通过MAE风格像素重建训练的即插即用修剪器增强识别有价值令牌的能力 [27] - 构建nuScenes-FG数据集包含241k图像-掩码对针对自动驾驶场景的前景分割标注 [27] - 在nuScenes开环规划基准上实现SOTA性能 [27] 语言大模型驱动自动驾驶框架PLA - 提出统一的感知-语言-动作(PLA)框架通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心实现自适应自动驾驶 [34] - 在nuScenes数据集的城市交叉路口场景中速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923轨迹跟踪的平均位移误差(ADE)为1.013米 [34] - 多传感器语义融合模块整合激光雷达、雷达和相机数据生成结构化场景描述提升空间精度与语义丰富度 [38] - 通过LLM驱动的上下文推理增强对未见过场景的泛化能力实现鲁棒决策 [41] 自动驾驶行业资源整合 - 梳理近40+技术路线包括咨询行业应用、VLA benchmark、综述和学习入门路线 [50] - 整理国内高校著名自动驾驶团队和领域企业介绍 [52] - 汇总自动驾驶数据集与标定、仿真工具包括近百个数据集和标注工具 [52] - 提供基础入门资料涵盖数学基础、计算机视觉、深度学习和编程相关内容 [52]