Workflow
Autonomous Driving
icon
搜索文档
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 08:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]
Pony AI: Massively Expanded Fleet And A Path To Profitability
Seeking Alpha· 2025-12-17 17:24
公司概况 - 公司业务专注于为多种商业应用场景开发自动驾驶技术 [1] - 公司目前正处于高速增长阶段 并计划进行业务扩张 [1] 作者背景 - 文章作者为亚利桑那州立大学学生 对科技和金融市场有浓厚兴趣 [1] - 作者主要专注于分析科技公司 特别是涉及人工智能基础设施构建、云计算和整体数字化转型的公司 [1] - 作者的投资方法植根于理解企业基本面和未来增长轨迹 旨在识别内在价值高于当前股票市值的公司 [1] - 作者通过持续研究分析 致力于将复杂的金融和技术趋势转化为直接的投资观点 [1]
【今晚播出】一场“无人”的马拉松 | 两说
第一财经· 2025-12-17 13:47
公司发展里程碑 - 小马智行于2024年在纳斯达克上市,并随后在港交所上市,成为首批实现“美股+港股”双重上市的自动驾驶科技公司 [1] - 公司已率先在北上广深四大一线城市提供全无人自动驾驶出租车服务 [1] 行业与创新探讨 - 行业正探讨如何在自动驾驶领域推动中国式创新,发展新质生产力 [1] - 站在“十五五”开局元年即将到来的时间点,行业关注创业公司如何在商业生态上谋势布局 [1] - 行业面临公众对无人驾驶安全性与接受度的疑问 [1] 企业家精神 - 中国企业家在破茧成蝶的路上需要面对不确定性 [1] - 探讨了企业家需要具备的精神内驱特质 [1]
Alphabet’s Waymo eyes $15 billion funding raise - report (GOOG:NASDAQ)
Seeking Alpha· 2025-12-17 12:34
公司融资动态 - Waymo作为Alphabet旗下的自动驾驶部门 正进行新一轮融资谈判 计划筹集超过150亿美元资金[2] - 此轮融资由母公司Alphabet领投 公司估值预计将接近1000亿美元[2] 行业与公司地位 - Waymo是自动驾驶出租车制造商 属于Alphabet公司[2]
谷歌自动驾驶子公司Waymo据悉以1000亿美元估值商谈下一轮融资
新浪财经· 2025-12-17 07:09
公司融资动态 - 谷歌母公司Alphabet旗下自动驾驶子公司Waymo正在与潜在投资者进行融资谈判 [1][1] - 此轮融资的估值目标至少为1000亿美元 [1][1] - 融资规模预计至少达到数十亿美元,甚至可能超过100亿美元 [1][1] - 确切的估值尚未最终确定 [1][1] - 此轮融资预计将于明年初安排 [1][1]
WeRide Just Hit the Roads in Dubai. Should You Buy WRD Stock Now?
Yahoo Finance· 2025-12-17 00:46
公司概况与业务范围 - 文远知行是一家专注于L2至L4级自动驾驶技术的全球性公司 业务涵盖自动驾驶出租车、巴士、货车及清扫车[1] - 公司致力于通过部署无人驾驶解决方案 使城市出行更安全、环保和高效 并被视为全球首批实现商业规模运营的自动驾驶出租车企业之一[1] - 公司总部位于中国广州 成立于2017年 业务覆盖全球11个国家超过30个城市[1][2] 近期股价表现 - 公司股价近期交易于52周低点6.03美元附近 年内迄今下跌近40% 较今年2月创下的52周高点下跌80%[3][4] - 近期股价波动显著 过去五个交易日下跌4% 但过去一个月因三季度业绩和强劲商业增长数据提振 上涨了21%[3] - 公司股价表现远逊于同期纳斯达克综合指数的温和正回报[4] 2025年第三季度财务业绩 - 第三季度营收约为5600万至5700万美元 同比增长约140%至145% 大幅超出分析师约5000万美元的预期 增长由自动驾驶出租车、巴士和货车部署快速推动[5] - 调整后每股收益虽仍为负值 但好于预期 随着运营规模扩大带来杠杆效应 每股亏损收窄[5] - 毛利率大幅提升至33% 去年同期为6.5% 软件、自动驾驶服务及车队利用率提高推动毛利润达5600万美元 同比增长1124%[6] - 服务收入超越产品收入 达到9200万元人民币(约1300万美元)[6] - 尽管研发支出高达3.18亿元人民币(约4500万美元)导致营业亏损 但净亏损收窄71%至3.07亿元人民币(约4400万美元)[6] - 现金储备充裕 持有45亿元人民币(约6亿美元)现金及9.26亿元人民币(约1.32亿美元)理财产品 为扩张提供支持[6] - 自由现金流虽仍为负 但随着单位经济效益改善而有所好转[6]
WeRide and Uber Launch Autonomous Robotaxi Rides in Dubai, Expanding AV Footprint in the UAE
Businesswire· 2025-12-12 17:00
合作与业务启动 - 文远知行与Uber及迪拜道路交通管理局合作 在迪拜正式推出Robotaxi载客服务 用户可通过Uber应用程序预订[1] - 服务在Umm Suqeim和Jumeirah两个热门旅游区启动 对所有乘客开放 车队运营商为Tawasul[2] - 此次启动基于自今年4月宣布合作以来的试点和测试 旨在为2026年初实现完全无人驾驶商业服务奠定基础[3] 市场背景与战略意义 - 迪拜拥有超过400万居民 是区域增长最快的都市中心之一 2024年公共交通、共享出行和出租车总出行量达1.53亿次 共享出行用户同比增长28%[4] - 该试验性公共服务支持迪拜到2030年实现25%出行自动驾驶的目标 旨在满足不断增长的共享出行和网约车需求[4] - 此次启动巩固了阿联酋在自动驾驶领域的领先地位 并支持两家公司未来几年在中东地区将Robotaxi规模扩展至数千辆的广泛计划[5] 公司战略与运营数据 - 文远知行首席财务官表示 公司计划到2030年部署数万辆Robotaxi 并正在中东及全球快速扩张[5] - Uber全球自动驾驶负责人表示 Uber作为全球最大的人类司机与自动驾驶汽车混合网络 正在构建交通的未来[5] - 文远知行目前在中东地区拥有近150辆自动驾驶汽车 其中超过100辆是Robotaxi[5] 公司概况与技术实力 - 文远知行是自动驾驶行业的全球领导者和先行者 也是首家上市的Robotaxi公司 其自动驾驶汽车已在11个国家超过30个城市测试或运营[6] - 文远知行是首个也是唯一一个在八个市场获得自动驾驶许可的技术公司 包括中国、阿联酋、新加坡、法国、瑞士、沙特阿拉伯、比利时和美国[6] - 基于WeRide One平台 公司提供从L2到L4的自动驾驶产品和服务 涵盖出行、物流和环卫行业的需求[6] - Uber的使命是通过移动创造机会 自2010年以来已完成超过680亿次出行[7]
Uber Targeting Robotaxis in Over 10 Markets in 2026
Youtube· 2025-12-12 09:23
公司增长战略与市场重点 - 亚太地区特别是北亚市场是公司巨大的增长市场 在网约车业务中 超过30%的全球首次使用该品类的行程来自亚太地区 该地区增长非常迅速[1][2] - 公司业务正从大城市向稀疏市场 郊区等扩张 在稀疏市场的出行和配送业务增长速度是大城市市场的2到3倍[30] - 公司目前在全球70个国家运营 拥有超过2亿的月活跃平台客户 这为其合作伙伴带来了巨大的需求[23][24] 自动驾驶业务布局与目标 - 公司目标到明年将自动驾驶服务扩展至10个以上的市场 并希望这些市场包括亚太地区[5][11] - 公司拥有超过20家全球自动驾驶合作伙伴 以确保在主要城市和市场获得自动驾驶技术[19] - 自动驾驶出行市场被认为是超过1万亿美元的市场 配送市场最终规模也将类似 预计不会出现赢家通吃的局面[20] 区域市场进展与合作 - 在日本 尽管监管相对落后 但公司看到了巨大潜力 特别是考虑到人口老龄化带来的交通需求 包括农村地区 公司正在与日本监管机构进行对话[5][6][12] - 在香港 已有各种试验和试点正在进行 公司希望香港能成为其自动驾驶布局的一部分[3][7] - 公司视百度 文远知行等为合作伙伴 并期望与它们共同将自动驾驶技术推向市场 认可中国自动驾驶技术的全球领先地位[9][10][13] 竞争格局与商业模式 - 在自动驾驶领域 公司与合作伙伴可能存在竞争与合作并存的混合模式 类似于麦当劳应用与Uber Eats的关系[14][18] - 在印度市场 增长最快的部分是两轮和三轮车业务 其商业模式是订阅制而非佣金制 公司正在与竞争对手Rapido展开竞争[35] - 公司认为其全球覆盖范围和需求聚合能力是关键优势 能够为昂贵的自动驾驶汽车和技术带来高利用率[24] 财务状况与资本运用 - 公司目前自由现金流接近100亿美元 并预计未来几年将大幅增长[26] - 通过自有现金流以及变现在其他公司的股权 公司拥有超过100亿美元的资本用于持续投资自动驾驶技术合作伙伴和车队建设[27] - 公司对投资持机会主义态度 可能考虑变现其在Grab和滴滴等公司的战略股权 但并非必需 因为公司自身持续产生现金流[28]
Nvidia’s ‘Secret Portfolio’ Is Tanking. This Is the Only Stock Still Winning
Yahoo Finance· 2025-12-11 22:24
英伟达战略投资组合概况 - 英伟达已悄然建立一个价值数十亿美元的战略投资组合 旨在增强其人工智能生态系统 涵盖从芯片设计到数据基础设施的领域[1] - 截至第三季度末 该投资组合包含六笔头寸 总价值为43亿美元[1] - 这些投资主要支持开发互补技术的公司 例如GPU优化的云服务和人工智能驱动的生物技术[1] 投资组合近期表现与挑战 - 第三季度 整个投资组合价值减少了近5亿美元 跌幅达11% 六只持股中有四只下跌[2] - 自9月第三季度结束以来 投资组合价值进一步缩水30% 至约27亿美元 相当于损失了11亿美元[2] - 投资组合的困境主要源于人工智能市场整体暂停 超大规模企业重新评估资本支出以及投资者情绪降温[2] - 投资组合在人工智能相邻领域的多元化 并未能使其免受全行业压力影响 如能源成本上升和企业部署延迟[4] 核心持仓:CoreWeave的拖累 - 投资组合的最大持仓是人工智能云提供商CoreWeave 该公司依赖英伟达的GPU来训练大模型[3] - 在第二季度末 英伟达持有的2430万股CoreWeave股票价值39.6亿美元 占投资组合价值的91%以上[3] - 由于债务担忧和人工智能炒作疲劳 CoreWeave股价大幅下挫 自第三季度末以来下跌了36% 较第二季度水平下跌了46%[3] - 该股目前交易价格约为每股88美元 而其在2025年初曾达到187美元的峰值[3] - 仅CoreWeave这一头寸就导致了投资组合季度环比的大部分跌幅[3] 其他主要持仓表现 - 芯片架构设计公司Arm Holdings自第三季度末以来下跌了12.5% 主要受移动需求放缓影响[4] - 利用人工智能进行药物发现的Recursion Pharmaceuticals因临床试验延迟而下跌了5.7%[4] - 自动驾驶公司WeRide因监管障碍增加而下跌了17%[4] 表现突出的持仓 - 在所有持仓中 只有Applied Digital逆势上涨[2] - 人工智能基础设施公司Nebius Group(前身为俄罗斯搜索巨头Yandex关联公司)也实现了正回报[5] - 英伟达持有的120万股Nebius股票在第二季度末价值为6590万美元 此后因与微软达成一项价值170亿美元的云容量交易而飙升了69%[5][6] - Nebius第三季度收入同比增长355% 达到1.46亿美元 突显其向满足人工智能超大规模计算需求的转型[6] - 然而 自第三季度末以来 Nebius的股价也下跌了17%[6]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 11:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]