Workflow
Autonomous Driving
icon
搜索文档
聊聊导航信息SD如何在自动驾驶中落地?
自动驾驶之心· 2025-12-23 08:53
导航信息在自动驾驶中的应用 - 图商提供的导航信息SD/SD Pro已在多个量产方案中使用,为车辆提供车道、粗粒度路径点等全局与局部视野信息,其应用顺理成章 [2] - 导航模块的核心职责之一是提供参考线,这能极大减轻下游规划控制模块的压力,车辆只需在参考线基础上进行细化 [4] - 导航模块还负责提供规划约束与优先级、路径监控和重规划等功能 [5] - 具体应用包括:进行车道级的全局路径规划,搜索目标车道的最优车道序列;为行为规划提供明确语义指导,方便车辆提前准备变道、减速、让行等操作 [6] 端到端自动驾驶算法框架 - 在两段式框架中,导航信息输入到感知模型,输出导航路径,该路径再作为机器学习规划器的输入,用于预测自车行驶轨迹 [16] - 在一段式框架中,SD信息经过专用编码器编码后,与动静态信息一同作为输入,参与后续的模型优化 [20] - 一段式框架相比两段式能做到信息无损传递,因此在性能上更具优势 [30] 行业课程内容概述 - 课程聚焦自动驾驶端到端技术的落地应用,涵盖一段式、两段式、强化学习、导航应用、轨迹优化及量产经验分享 [23] - 课程由工业界算法专家联合开设,讲师为国内顶级一级供应商算法专家,拥有大模型、世界模型等前沿算法的预研和量产落地经验 [25] - 课程面向进阶学员,需自备算力在4090及以上的GPU,并具备BEV感知、视觉Transformer、强化学习等算法基础 [38] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,学习周期预计三个月 [36] 课程核心章节大纲 - 第一章概述端到端任务,介绍感知模型一体化架构、规控算法学习化方案及开源数据集与评测方式 [28] - 第二章详解两段式端到端算法框架,包括其建模方式、感知与规划控制的信息传递,并通过PLUTO算法进行实战 [29] - 第三章讲解一段式端到端算法框架,介绍基于向量逻辑架构和扩散模型等多种方案,并深入学习VAD系列方法 [30] - 第四章专述导航信息的量产应用,涵盖主流导航地图格式、内容信息及其在端到端模型中的编码与嵌入方式 [31] - 第五章介绍自动驾驶中的强化学习算法,旨在弥补纯模仿学习的不足,使系统学习因果关系以实现泛化 [32] - 第六章进行神经网络规划器项目实战,重点涵盖基于扩散模型和自回归模型的模仿学习,并结合强化学习算法 [33] - 第七章讲解量产兜底方案——时空联合规划,介绍多模态轨迹打分搜索及轨迹平滑等后处理优化算法 [34] - 第八章分享端到端量产经验,从数据、模型、场景、规则等多视角剖析如何提升系统能力边界 [35]
Baidu to bring robotaxi services to London via Uber and Lyft
Invezz· 2025-12-22 19:02
公司动态 - 中国科技集团百度确认计划从明年起在英国首都伦敦推出自动驾驶出租车[1] - 此举将使伦敦成为全球自动驾驶公司的下一个试验场[1] 行业趋势 - 全球自动驾驶公司正积极寻求在伦敦等国际大都市进行技术测试和商业化部署[1]
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-22 11:23
DiffusionDriveV2模型架构 - 整体架构基于截断扩散模型,并引入强化学习约束,用于端到端自动驾驶 [3] - 环境编码部分融合了BEV特征和自车状态特征,BEV特征通过骨干网络从相机和激光雷达特征中提取并下采样,自车状态通过独立编码器处理,两者拼接后加入位置嵌入 [5][6] - 解码部分采用类似DETR的查询机制,将查询输出分割为轨迹查询和智能体查询,用于后续规划 [7] 轨迹规划模块 - 利用多尺度BEV特征进行轨迹规划,通过上采样和拼接操作融合不同层级的特征,然后进行投影变换 [8] - 规划过程以预定义的轨迹锚点为基础,锚点通过K-Means聚类从真值轨迹中获取,在训练时对锚点进行归一化、加噪和反归一化处理 [9][10][11] - 将加噪后的轨迹锚点通过正弦位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询、自车查询进行交叉注意力计算,最终预测轨迹分类分数和去噪后的轨迹偏移量 [12][13][14][15][16][17][18][19][20][21] - 最终轨迹由预测的轨迹偏移量与加噪的原始轨迹锚点相加得到,并对航向角进行限制 [22] 模态选择与轨迹生成 - 采用模态选择器从多个候选轨迹中选取最终输出 [23] - 在推理(反向去噪)阶段,对规划锚点进行归一化和加噪,然后通过多步迭代的去噪过程生成轨迹,每一步都使用扩散模型解码器预测轨迹并利用调度器进行去噪更新 [25][26][27] - 使用PDM评分器对生成的所有模态轨迹及真值轨迹进行多维度综合评估,评估维度包括安全性、舒适性、规则遵守、进度和物理可行性,并计算加权总分 [27] 强化学习优化与损失函数 - 提出锚点内GRPO方法,在每个锚点对应的轨迹组内执行组相对策略优化,通过计算组内相对优势来更新策略,避免模式崩溃 [27][28] - 对强化学习优势函数进行改进,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,同时引入时间折扣因子,降低未来时间步的奖励权重 [29][30][31][32] - 在扩散过程中创新性地使用尺度自适应的乘性噪声(纵向和横向)替代传统的加性噪声,以保持轨迹的平滑性和结构完整性,避免产生锯齿状路径 [33][35] - 总损失函数结合了强化学习损失和模仿学习损失,以防止过拟合并保持通用驾驶能力 [39] - 训练监督包含真值匹配,将最接近真值的锚点轨迹作为正样本,其余作为负样本,总损失由轨迹恢复损失和分类置信度损失两部分构成 [40][41][42][43]
业内团队负责人对Waymo基座模型的一些分析
自动驾驶之心· 2025-12-22 08:42
Waymo端到端自动驾驶新范式技术解析 - 文章核心观点:Waymo发布技术博客,阐述了其在端到端自动驾驶新范式下的核心技术架构,重点包括基于大模型的基座系统、新型安全验证与可解释性方法以及数据驱动闭环 [2] 基座大模型架构 - Waymo的自动驾驶基座模型采用快慢双系统架构 [2] - 快系统核心模块是感知,相对白盒化,对应上一代自动驾驶方案 [2][4] - 慢系统核心模块是基于Gemini的视觉语言模型,用于复杂语义推理 [2][4] - VLM输入包括驾驶员语言、传感器原始数据及历史信息,输出涵盖自车轨迹、他车行为预测和高精地图 [2] - 慢系统将自车与他车轨迹预测视为下一个词预测任务,利用Gemini大语言模型作为编码器,并采用利于强化学习的解码器 [5] - 基座模型有三个主要用途,但具体用途未在提供内容中详述 [6] 安全验证与可解释性方法 - 在端到端黑盒范式下,通过设立严格的车载验证层进行安全验证 [7] - 验证方法是将网络的显式中间结果与真实值进行对比 [7] - 对比的真实值不仅包括感知标注结果,也包含部分与仿真器生成的编码是否一致的编码结果 [7] 数据驱动飞轮 - Waymo构建了双层数据飞轮:内环是基于强化学习的仿真-验证-上车闭环;外环是基于实车测试的闭环 [8] - 车端模型、云端仿真器、评估器三者共享同一个基座模型 [11] - 车端数据挖掘仍然是新范式下的核心 [12] - 内环数据飞轮强烈依赖于基于世界模型的生成式仿真 [12] 行业技术趋势 - 端到端自动驾驶通过传感器数据直接输出规划或控制信息,是当前智能驾驶最具代表性的方向 [15] - 行业关注重点算法包括BEV感知、大语言模型、扩散模型和强化学习 [15] - 基于扩散模型的规划器和基于VLA的算法是当前重要的实战研究方向 [15]
Weekend Round-Up: GM's CEO Succession, Tesla's FSD Boost, Trump's Air Taxi Strategy Waymo's Funding Round And Ford's EV Pivot
Benzinga· 2025-12-22 02:01
通用汽车公司高管变动 - 通用汽车公司考虑任命现任首席产品官、前特斯拉自动驾驶高管斯特林·安德森为下一任首席执行官 [2] - 安德森曾联合创立Aurora Innovation公司 若其能提升通用汽车的硬件和软件集成能力 则可能接替玛丽·博拉 [2] 特斯拉自动驾驶技术进展 - 特斯拉的完全自动驾驶系统在韩国获得认可 韩国国会议员李素英称赞该技术具有变革性并分享使用体验 [3] - 特斯拉正为其完全自动驾驶系统在欧洲的推广做准备 [3] 美国空中交通战略 - 美国交通部长肖恩·达菲公布了启动空中出租车运营的战略 旨在应对快速变化的航空业及电动垂直起降飞行器和无人机的兴起 [4] - 该战略目标被表述为帮助美国“击败中国并在航空领域领先” [4] Waymo融资动态 - 阿尔法贝特公司旗下的自动驾驶部门Waymo据称正在讨论一轮融资 金额可能超过100亿美元 [5] - 此轮融资预计将使Waymo的估值达到1000亿美元或更高 并可能在明年年初组织进行 [5] 福特汽车战略调整 - 福特汽车公司据称因电动汽车需求低于预期而将战略重点从电动汽车转移 [6] - 加拿大皇家银行资本市场分析师汤姆·纳拉扬维持对福特的“板块持平”评级 并称赞公司的战略重组 [6]
凯文・凯利:意外之美|我们的四分之一世纪
经济观察报· 2025-12-19 17:58
文章核心观点 - 凯文·凯利(KK)总结二十一世纪前25年科技发展的三大意外:“意外之快”、“意外之慢”和“意外之路”,其核心启示在于预测未来需要跳出线性思维、理解系统依赖性和拥抱跨界融合的反传统路径 [2][3] - 对于未来25年,KK认为中国正处于类似1980年代日本的位置,超越美国势不可挡,但真正的风险源于内部而非外部,推动成长的关键在于开源文化、科技创新创业者的信心以及拥抱全球化的反传统文化 [8][9] 意外之快:智能手机的“非线性爆发” - 智能手机的普及速度与广度超乎预期,自2007年iPhone问世后短短十年间完成了全球数十亿级的渗透,并以吞噬一切的姿态重构了产业格局 [3] - 智能手机革命并非单一技术突破,而是通信(如3G网络)、硬件(触控屏)和软件生态(App Store)等多个领域临界值叠加的结果,其本质是技术融合催生的“非线性爆发” [3] - 该设备因同时满足沟通、娱乐、消费、生产等多重需求,特别是击中了人类“即时连接”的底层需求,其普及速度超越了任何单一功能产品 [3] - 未来爆发点往往不是更高级的旧事物,而是能整合多重需求的新生态载体,仅以技术升级的线性思维预判会错过生态级颠覆 [3] 意外之慢:VR与自动驾驶的“系统依赖性” - 虚拟现实(VR)的发展速度远低于预期,即使是被寄予厚望的苹果Vision Pro也未能一炮而红,镜像世界的“iPhone时刻”迟迟未到 [4] - VR发展缓慢的原因在于其需要复杂的系统支撑,KK反思自己忽略了视觉感知与其他感官感知同等重要,缺乏相关领域支撑无法实现真正的沉浸式体验 [4][5] - 增强现实(AR)的实现比VR更难,虽然2025年被称为“智能眼镜之年”,但其达到快速普及临界点的“iPhone时刻”仍需至少两三年 [5] - 自动驾驶技术如Waymo已能实现L4级,但大规模普及仍需5年以上,因为它不仅是技术问题,更是涉及法律、伦理、社会信任和城市基础设施的系统工程 [5] - 技术落地速度不取决于单点突破,而取决于系统成熟度,必须深刻理解木桶原则,配套设施、社会文化、伦理规则是否到位是关键 [5] 意外之路:大语言模型与共享经济的“另辟蹊径” - 大语言模型(LLM)的发展路径出乎意料,最先展现出理性思维能力的竟是语言翻译类人工智能,通过语言产生逻辑,这与传统依赖符号推理的路径截然不同 [6] - LLM遵循“规模原则”(Scaling Law),通过持续优化升级可以不断迭代地“大力出奇迹” [6] - 共享经济如Airbnb和优步的出现也是“意外之路”,KK未预判到是因为低估了消费习惯的重构,移动支付与评价体系降低了信任成本,使反传统模式成为可能 [7] - 优步的崛起是技术融合的意外产物,GPS定位系统成熟、移动支付与算法调度结合,让私家车共享从“不可能”变为“日常” [7] - 未来突破往往来自跨界融合或反传统路径的创新,而非沿着既有路径的优化,困于行业惯例或既有认知可能忽略能切中真实需求的新路径 [7] 历史教训与未来展望:日本案例与中国启示 - 过去50年的一大意外是对日本崛起势不可挡的误判,二十世纪八十年代的美国精英普遍认为日本将超越美国,但日本并未成功 [8] - 日本错失了互联网和移动互联网时代红利,其停滞源于内部因素:对既有发展路径的依赖、对市场开放的抵触,以及企业在面对颠覆性技术时的迟疑与躺平 [8] - KK将“唯一能阻止我们的,只有我们自己”作为对未来25年中国的寄语,认为中国正处于1980年代日本的位置,但真正的风险来自内部可能犯下的错误 [9] - 推动中国未来二十五年成长的三大要素是:开源成为默认选项并以AI大模型为代表的技术路径、科技创新创业者不再满足模仿而不断突破的信心、以及由“海归”或拥抱全球化群体引领的更能容忍失败和质疑权威的反传统文化 [9]
Chinese Self-Driving Tech Firm CiDi Lists in HK
Yahoo Finance· 2025-12-19 13:39
公司上市与资本市场动态 - 公司是商用车自动驾驶技术提供商 已在香港上市 [1] 公司管理层与战略沟通 - 公司首席执行官Albert Sibo Hu讨论了公司的增长和国际扩张战略 [1] - 该讨论在“Bloomberg: The China Show”节目中进行 由Yvonne Man主持 [1]
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 公司Wayve推出的GAIA-3是一个用于自动驾驶评估的规模化世界模型,它将世界建模从一个视觉合成工具转变为自动驾驶安全与评测的基石,旨在解决大规模评估自动驾驶系统时面临的成本高、数据效率低、罕见安全事件难以捕获等核心挑战 [1][4] GAIA-3的定位与目标 - 旨在将世界建模从视觉合成工具转变为自动驾驶评估的基石,生成的驾驶场景不仅逼真,而且结构化和有目的性,用于测量、比较并加速实现安全、可扩展的自动驾驶 [4] - 结合了真实世界数据的真实感与仿真的可控性,允许对真实驾驶序列进行精确、参数化的变体重现,例如在保持场景其他元素一致的同时改变自车轨迹 [6] - 其目标是确立生成式仿真作为衡量进展和证明整个具身人工智能领域安全性的主要工具 [20] GAIA-3的技术能力与规模 - GAIA-3是一个拥有150亿(15B)参数的基于潜在扩散(Latent Diffusion)的世界模型 [3][16] - 其视频分词器(video tokenizer)大小是前代GAIA-2的两倍 [3][19] - 训练计算量是GAIA-2的五倍,数据量大约是GAIA-2的两倍,覆盖了3大洲的8个国家 [16] - 模型规模相比GAIA-2增加了一倍,扩展了表征能力和生成精度,实现了更清晰的视觉效果、更一致的光照和更丰富的纹理细节 [18][19] GAIA-3的核心应用:安全关键场景生成与评估 - 可对真实世界驾驶序列进行受控且逼真的变体生成,在保持环境其他部分一致的同时改变自车轨迹,从而系统化生成碰撞和接近碰撞场景,用于可扩展、可复现的安全验证 [7] - 可以虚拟地、大规模地生成类似NCAP(新车评估规程)风格的测试,既可以在模拟的测试场环境中,也可以在不同的现实世界条件下进行 [7] - 生成安全关键场景时注重一致性,确保当仅自车行为改变时,场景的其余部分在物理上和视觉上保持连贯 [8] GAIA-3的核心应用:离线评估套件 - 通过动作条件控制自车行为,并结合“世界在轨”扰动,可以从单个记录序列创建一整套“假设”情景,形成结构化、可扩展、可重复且可测量的离线评估测试套件 [9] - 该评估套件比静态回放提供更丰富的诊断信号,能揭示驾驶策略在条件改变时的行为变化,其合成干预与道路实验之间的相关性研究表明,该模型能够可靠地预测相关策略性能 [9] GAIA-3的核心应用:化身迁移 - 支持化身迁移,可以从新的传感器配置重新渲染同一场景,只需使用目标摄像头配置的一个小型、非配对样本即可 [10] - 这意味着评估套件可以轻松地在不同的“化身”或不同汽车制造商(OEM)的车辆项目之间迁移,而无需进行配对采集 [10] GAIA-3的核心应用:鲁棒性与可解释控制 - 引入了受控的视觉多样性,允许场景的外观(如光照、纹理和天气)发生变化,而底层结构(几何结构和运动)保持一致,从而可以直接比较模型在不同视觉条件下的性能,大规模评估鲁棒性 [11] GAIA-3的核心应用:数据丰富化与调试 - 可以从少量示例中学习,并围绕它们生成结构化变体,从而将诸如刹车或并线等场景家族扩展为丰富且物理一致的测试集 [12] - 能够将罕见的故障模式(如在街道中央急刹车)转换到新的场景和地理环境中,帮助利用罕见的分布外示例来扩展数据集,用于针对性测试或再训练 [13][15]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
Holiday rush: Hong Kong IPO market sparkles with busiest December in years
Yahoo Finance· 2025-12-18 17:30
Hong Kong's initial public offering (IPO) market is heading for its busiest month in four years, as a late rush of listings gathers pace despite the traditional slowdown around the Christmas and New Year holidays. At least 15 companies were set to go public by the end of December, with drug-discovery firm Insilico Medicine planning one of the largest deals in the final stretch of the year, according to data compiled by the Post. A total of 12 companies had already made their market debuts between December ...