Workflow
Autonomous Driving
icon
搜索文档
WeRide to Announce Second Quarter 2025 Financial Results on July 31, 2025
Globenewswire· 2025-07-16 18:00
文章核心观点 公司计划于2025年7月31日美国市场开盘前发布2025年第二季度财务结果,管理层将在当天上午8点(美国东部时间)举行财报电话会议 [1] 财务结果与会议安排 - 公司计划2025年7月31日美国市场开盘前发布2025年第二季度财务结果 [1] - 管理层将于2025年7月31日上午8点(美国东部时间)举行财报电话会议,对应北京时间为当天晚上8点 [1] - 会议注册链接为https://register-conf.media-server.com/register/BI47b984221bb74f7db1dcbd3748e8a875,参与者需提前完成在线注册,注册后将获拨入号码和访问PIN [1] - 会议直播和存档将在公司投资者关系网站ir.weride.ai上提供 [2] 公司概况 - 公司是自动驾驶行业全球领导者和先驱,也是首家公开上市的Robotaxi公司 [3] - 公司自动驾驶车辆已在10个国家的30多个城市进行测试或运营 [3] - 公司是首个且唯一在中、阿联酋、新加坡、法国和美国五个市场获得自动驾驶许可的科技公司 [3] - 依托WeRide One平台,公司提供从L2到L4的自动驾驶产品和服务,满足出行、物流和环卫行业的交通需求 [3] - 公司入选《财富》杂志2024年“未来50强”榜单 [3] - 公司官网为https://www.weride.ai [3] 联系方式 - 投资者咨询邮箱为ir@weride.ai [4] - 媒体咨询邮箱为pr@weride.ai [4]
自动驾驶论文速递 | 多模态大模型、运动规划、场景理解等~
自动驾驶之心· 2025-07-13 16:10
自动驾驶算法模型研究进展 - MCAM模型在BDD-X数据集上驾驶行为描述任务BLEU-4提升至35.7%,推理任务BLEU-4提升至9.1%,显著优于DriveGPT4等基线模型[1] - TigAug技术使交通灯检测模型错误识别率降低39.8%,增强数据重新训练后mAP平均提升67.5%[12][17] - LeAD系统在CARLA仿真平台实现71.96驾驶分,路线完成率93.43%,超越现有基线模型[23][27] - DRO-EDL-MPC算法计算效率提升5倍,不确定场景下碰撞率接近于零[33][40] - 3DGS-LSR框架在KITTI数据集实现厘米级定位,城镇道路误差0.026m,林荫道误差0.029m[43][47] 自动驾驶数据集与框架创新 - NavigScene框架使nuScenes数据集平均L2轨迹误差降低至0.76m,比基线提升24%,碰撞率从32.48‱降至20.71‱[52][58] - LiMA框架在nuScenes数据集LiDAR语义分割mIoU达56.67%,3D目标检测mCE降至91.43%[61][68] - L4 Motion Forecasting数据集包含德美两国400+小时原始数据,覆盖250km独特道路[78][82] - 动态掩码与相对动作空间缩减策略使CARLA仿真训练效率提升2倍,车道偏离降低至0.07米[71][76] 技术突破与性能提升 - DSDAG因果图建模自车状态动态演化,为驾驶视频理解提供结构化理论基础[5] - TigAug单张图像合成耗时0.88秒,模型重训练平均耗时36小时[13] - LeAD系统通过LLM增强实现场景语义理解和类人逻辑推理[25] - DR-EDL-CVaR约束同时处理数据不确定性和模型不确定性[38] - 3DGS-LSR摆脱对GNSS依赖,仅用单目RGB图像实现厘米级重定位[46]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 20:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]
暑假打比赛!RealADSim Workshop智驾挑战赛正式开启,奖池总金额超30万(ICCV'25)
自动驾驶之心· 2025-07-11 17:42
自动驾驶仿真技术研讨会核心内容 1 研讨会背景与意义 - 高保真度仿真技术是解决自动驾驶算法测试成本高和安全隐患的关键 传统仿真器存在场景风格差异 离线数据集无法实现闭环测试的局限性[1] - 新视角合成(NVS)技术突破性在于基于真实数据构建闭环仿真环境 为动态交互场景评估提供新途径[1] 2 核心挑战与赛道设置 外插视角新视点合成赛道 - 聚焦外插视角渲染保真度问题 当前技术受限于训练数据视角覆盖范围 稀疏输入时外插视角质量不足[3] - 赛道设置多难度渲染挑战 重点评估变换车道 转向等自动驾驶关键场景的视角外插鲁棒性[3][4] 自动驾驶闭环仿真评估赛道 - 突破性体现在:首次实现完全闭环测试框架 弥合真实数据与交互评估的鸿沟 克服静态数据集无法模拟动态交互的缺陷[5] - 评估维度包括渲染场景真实感 以及算法在闭环环境中的性能表现 提供复杂场景基准测试可能[5][6] 3 赛事组织架构 - 奖项设置:创意奖9000美元 一等奖9000美元 二等奖3000美元[8][9] - 时间节点:2025年6月30日启动 8月31日提交截止 9月5日公布结果 9月20日技术报告截止[8] - 资源平台:提供Hugging Face数据集与提交样例 覆盖两个赛道技术资源[8] 4 行业价值定位 - 聚焦新视角合成与闭环评估两大核心技术难题 构建兼具挑战性和研究价值的比赛平台[10] - 目标推动全球自动驾驶技术向高阶发展 通过仿真技术突破加速算法迭代[11]
学长让我最近多了解些技术栈,不然秋招难度比较大。。。。
自动驾驶之心· 2025-07-10 18:05
自动驾驶行业技术趋势 - 自动驾驶技术快速迭代,算法工程师需掌握BEV、世界模型、扩散模型等复合型技能[2] - 企业招聘偏好复合型人才,要求覆盖传感器标定、数据处理、模型训练到部署全流程[3] - 前沿技术如端到端、VLA、强化学习等岗位需求增加,但量产仍以数据、检测、OCC等基础工作为主[2][3] 知识星球核心资源 - 提供价值千元的入门视频教程,涵盖世界模型、Transformer等前沿技术论文解读[3] - 未来将新增相机标定、多模态融合、大模型等课程,全部免费向会员开放[5] - 社区已吸引华为天才少年等专家加入,形成学术+产品+招聘的闭环生态[5] 四大前沿技术方向资源 视觉大语言模型 - 汇总10+开源项目,包括智能交通LLM应用、AIGC、视觉语言模型综述及提示学习方法[7] - 提供37.6M多语言Wikipedia图文数据集及12B规模的WebLI预训练数据[13] 世界模型 - 收录16项研究成果,如Meta的导航世界模型(NVM)、InfinityDrive泛化模型及DriveWorld 4D场景理解[27][28] - 聚焦视频生成与场景重建技术,如DriveDreamer-2支持定制化驾驶视频生成[28] 扩散模型 - 整合22篇权威综述,覆盖3D视觉、视频编辑、推荐系统等应用领域[30] - 自动驾驶领域应用包括Drive-1-to-3实车合成、MagicDriveDiT长视频生成等9项创新工作[31] 端到端自动驾驶 - 收录50+里程碑方法,如EfficientFuser高效融合框架、nuScenes开环SOTA模型UAD[37][39] - 开源仓库包含Opendilab和Pranav-chib整理的端到端驾驶方法全集[33] 数据集与评估体系 - 预训练数据集规模最大达12B(LAION5B),覆盖108种语言[13] - 自动驾驶专用数据集包括NuScenes(1200类)、Waymo Open Dataset(多任务)等19类[19][20] - 评估指标涵盖mAP(目标检测)、mIoU(语义分割)、Recall(图像检索)等标准化体系[14][17][18] 技术应用场景 智能交通 - 语言引导车辆检索系统采用多粒度检索技术,2023年新增3种统一多模态结构[21] 自动驾驶系统 - 感知模块集成VLPD行人检测、Language-Guided 3D检测等6项创新算法[22] - 规划控制领域应用GPT-Driver轨迹预测、DRIVEVLM多模态融合等5种解决方案[23][24] 行业生态发展 - 社区目标3年内建成万人规模的智能驾驶&具身智能社群[5] - 会员权益包含5000+干货内容、100+场直播回放及求职咨询等7项专属服务[51]
传统规控和端到端岗位的博弈......(附招聘)
自动驾驶之心· 2025-07-10 11:03
行业技术趋势 - 端到端自动驾驶技术正快速冲击传统规控方法 其场景泛化能力和数据驱动特性显著优于基于规则的系统 [2] - 传统规控依赖人工编写规则(PID/LQR/MPC等算法) 优势在于可解释性强但难以覆盖所有场景 [2] - 端到端方案直接从传感器映射控制指令 减少模块化架构的信息损失 实现全局优化 [4] 技术方案对比 端到端方案 - 优势:降低系统复杂性 通过数据学习人类驾驶风格 支持全流程联合优化 [4] - 劣势:决策过程黑箱化 需海量训练数据 极端场景依赖规则兜底 [4] 传统PNC方案 - 优势:模块功能明确 已知场景稳定性高 适合高安全需求场景 [5] - 劣势:多模块协同开发成本高 复杂场景规则覆盖有限 依赖高精地图 [5] 技术融合方向 - 行业实践表明端到端与PNC呈互补关系 如华为ADAS3.0采用传统规控作为安全冗余 [6] - 传统规控工程师转型需结合端到端技术 复合型人才更具竞争力 [7] 人才需求现状 规控算法工程师 - 岗位职责覆盖城区/高速/停车场等多场景决策规划算法开发 需掌握MPC/PID等经典算法 [10] - 任职要求硕士以上学历 熟悉强化学习算法 有Apollo等开源项目经验者优先 [10] - 薪资范围40k-100k/月 工作地集中在北京/上海 [10] 端到端工程师 - 核心任务包括VLA模型构建、训练数据集优化及闭环评测系统研发 [12] - 薪资30k-80k/月 工作地分布在深圳/上海 [12] 视觉算法专家 - 技术要求涵盖轻图感知、占据格网络研发及视觉大模型应用开发 [18] - 优先考虑有顶会论文或算法竞赛获奖经历者 薪资40k-80k/月 [17][18]
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 20:56
自动驾驶算法模块 - 自动驾驶算法分为两大模块:场景理解(理解周围环境、预测agents行为)和决策(生成安全舒适轨迹、可定制化驾驶行为)[1][2] - diffusion planner工作聚焦于决策模块中的闭环场景性能提升[3] 自动驾驶规划方法对比 - rule-based方法(如PDM)依赖道路中心线选择和规则系统,存在迁移性差、人力成本高、缺乏灵活性等问题[4] - learning-based方法(如UniAD、VAD)通过模仿学习实现类人行为预测,但面临多模态数据分布学习困难,仍需依赖rule-based兜底[6] diffusion model技术优势 - 能更好拟合多模态驾驶行为数据分布,通过高斯加噪/降噪过程分解复杂问题[6] - 基于classifier guidance机制实现定制化驾驶行为,无需针对特定场景重新训练模型[6] - 已在图像生成、机器人动作生成、离线RL等领域验证其高效学习能力[11] diffusion planner核心技术 - 采用MLP-Mixer+self-attention的encoder结构进行高效信息提取[12] - 通过cross-attention降低计算量,DPM-Solver实现20Hz高速轨迹生成[12] - 同时完成自车规划和周车行为预测,支持定制化驾驶行为生成[12] 性能提升表现 - 测试数据显示在Test14、Test14-hard、Val14场景分别达到89.19、75.99、89.87分,显著优于Diffusion-es等对比模型[20] - 实现高质量轨迹生成和多模态驾驶行为拟合(如无导航信息下生成左转/右转/直行轨迹)[14][16] - 在毫末200小时物流车数据上展现强泛化能力,适应非机动车道行驶等特殊场景[23] 后续优化方向 - 数据量和模型参数量scale up对闭环性能的影响[28] - 端到端框架设计而不仅限于planner模块优化[28] - 训练和推理过程的进一步加速[28] - 实车场景下的高效guidance机制实现[28]
小马智行与迪拜道路交通管理局签署战略合作协议:首批车辆将于今年开启路测
IPO早知道· 2025-07-07 15:51
小马智行与迪拜合作推进Robotaxi商业化 - 公司与迪拜道路交通管理局签署战略合作协议 首批车辆将于2025年开启路测 2026年实现全无人商业化运营 [2] - 合作旨在推动L4级自动驾驶技术融入迪拜多模式交通体系 助力实现2030年自动驾驶出行占比达25%的战略目标 [4] - 迪拜方面表示此次合作将巩固其作为未来交通领域全球引领者的地位 赞赏公司选择迪拜作为全球业务拓展平台 [4] 合作具体规划与战略意义 - Robotaxi将分阶段落地运营 2025年启动路测 无缝对接地铁、有轨电车及海上航线等综合交通网络 [6] - 合作将实现"最先一公里和最后一公里"战略构想 提升居民与游客出行体验 保障道路安全 [6] - 公司CFO表示此次合作彰显了在全球战略市场落地Robotaxi的决心 将共同打造中东地区智能交通标杆 [6] 公司技术进展与全球布局 - 第七代Robotaxi采用100%车规级零部件 显著提升成本效益和跨平台适应性 [7] - 公司与Uber建立战略合作 在欧洲、亚洲等多地推进自动驾驶出行服务 包括卢森堡道路测试、新加坡商业化运营及首尔路测 [7] - 国际化进展展现出公司具备服务全球交通体系的成熟度 正赢得国际市场认可 [7] 迪拜自动驾驶战略规划 - 迪拜智能自动驾驶交通战略目标为2030年前将25%出行方式转化为自动驾驶行程 [5] - 迪拜正着力打造智慧城市范本 将自动驾驶列为城市数字化转型的关键支柱 [6] - 政府通过许可审批和监管机构 构建配套基础设施并健全立法与监管体系 [5]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-06 16:44
视觉大语言模型 - 视觉大语言模型在智能交通和自动驾驶领域有广泛应用,相关资源包括Awesome-VLM-AD-ITS和Awesome-LLM-Inference等GitHub项目 [4] - 视觉语言模型的研究方向包括预训练、迁移学习、知识蒸馏等,涉及CVPR、ICLR、NeurIPS等多个顶会论文 [5][7][8] - 视觉语言模型的架构和推理策略有专门的研究,如Awesome-VLM-Architectures和Awesome-VLM-Inference-Strategies等项目 [4] 世界模型 - 世界模型在自动驾驶中的应用包括3D场景理解和未来场景生成,代表性工作有HERMES和DrivingGPT等 [9][10] - 2025年最新综述总结了自动驾驶中的世界模型研究现状 [10] - 世界模型在4D驾驶场景表示和规划中发挥重要作用,如DriveDreamer4D和DriveWorld等项目 [12][13] 扩散模型 - 扩散模型在自动驾驶视频生成和场景理解中有广泛应用,相关资源包括Awesome-Diffusion-Models等项目 [14] - 扩散模型在图像处理、视频编辑、3D视觉等领域都有专门研究,涉及多篇综述论文 [15] - 扩散模型与自动驾驶世界模型的结合是新兴研究方向,如DriveDreamer-2等项目 [13] 端到端自动驾驶 - 端到端自动驾驶研究涉及感知、预测、规划等多个环节,相关资源包括Awesome-End-to-End-Autonomous-Driving等项目 [21] - 端到端自动驾驶的最新进展在CVPR、ICRA、NeurIPS等顶会上有专门研讨 [21] - 端到端自动驾驶技术栈涵盖大模型、BEV感知、多传感器融合等30+方向 [19][21] 行业社区 - 自动驾驶行业有近4000人的交流社区,300+公司和科研机构参与 [19] - 社区覆盖30+技术方向的学习路线,从基础到前沿全面覆盖 [19] - 社区提供专业课程,涉及端到端自动驾驶、大模型、仿真测试等多个方向 [20][21]
肝了几个月!手搓了一个自动驾驶全栈科研小车~
自动驾驶之心· 2025-07-05 21:41
产品发布与定价 - 黑武士001自动驾驶教研小车正式开售,原价34999元,支付定金1000元可抵扣2000元[1] - 产品定位为面向科研与教学的轻量级全栈解决方案,支持感知、定位、融合、导航、规划等多功能平台[2] 产品功能与应用场景 - 测试场景覆盖室内、室外、地库等多种环境,功能包括点云3D目标检测、2D/3D激光建图、夜间行驶等[3][7][9][11][13][15][17] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等[5] - 支持2D/3D目标检测与分割、SLAM技术、车辆导航避障等24项核心功能[24] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达(FOV360°*59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[17][27] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器,阿克曼底盘系统[17] - 车体尺寸620×400×320mm,自重30kg,最大载荷30kg,续航>4小时,最高速度2m/s[21] 软件系统 - 基于ROS框架开发,支持C++和Python语言编程[23] - 提供一键启动开发环境,包含深度相机驱动、手柄控制等脚本[33][38][39] - 支持通过rviz可视化工具实时监控传感器数据,如激光雷达点云等[36][43] 售后服务 - 提供1年非人为损坏保修服务,人为损坏可付费维修[46] - 提供完整产品说明书,涵盖硬件参数、软件配置及维修指南[23][26]