Workflow
自动驾驶之心
icon
搜索文档
自动驾驶是否一定需要语言模型?
自动驾驶之心· 2025-11-05 08:04
自动驾驶技术路线分野 - 2025年成为自动驾驶技术架构的关键分水岭,形成WEWA与VLA两大对立技术路线 [2] - WEWA架构以华为乾崑智驾ADS 4为代表,追求“去语言化”实现高效落地 [2][4] - VLA架构以理想、小鹏等企业为代表,以语言模型为核心追求认知智能 [2][4] WEWA与VLA架构的本质区别 - WEWA核心逻辑为视觉直接映射动作,跳过语言转化环节,关键组件是云端世界引擎和车端世界动作模型 [5] - VLA核心逻辑为视觉-语言-动作三级传导,语言为核心中介,关键组件是视觉编码器加大语言模型加策略控制模块 [5] - WEWA技术核心是虚拟沙盘训练的端到端动作映射,代表指标为端到端时延降低50%,重刹率降低30% [5] - VLA技术核心是多模态对齐的语言化推理能力,优势在于复杂场景决策准确率提升和支持自然语言交互 [5] - WEWA通过云端虚拟沙盘预训练,将场景-动作映射固化到车端模型,实现“感知即决策”的高效闭环 [5] - VLA遵循“具身智能”认知逻辑,将视觉特征转化为语言Token进行语义推理,例如Wayve的LINGO-1模型能通过语言解释车辆决策 [6] VLA架构的算力挑战 - VLA训练阶段算力需求高,小鹏启动的720亿参数自动驾驶基座模型需千卡级GPU集群支持 [7] - VLA推理阶段即使使用7B-13B参数的轻量化语言模型,也需车规级高算力芯片(如Orin-X 200TOPS以上)保证实时响应 [7] - 语言模型的语义处理引入额外时延,使VLA端到端时延比WEWA高出近一倍,在毫秒级决策场景存在安全风险 [8] - VLA架构中语言模型持续运行会占用可观车端算力,可能导致感知模块帧率下降和传感器数据处理延迟 [9] VLA架构的语言模型优势 - 语言具有高度抽象能力,可将成千上万的类似场景压缩成一句话,实现巨量场景的压缩处理 [10] - 大语言模型具备跨场景知识迁移能力,能为自动驾驶注入“类人推理”能力,处理3000万个样本都无法覆盖的罕见场景 [12] - 语言作为通用语义载体,能将视觉信号、导航指令、人类语音等异构信息纳入同一推理框架,实现多模态信息统一表征 [13] - 语言模型能将抽象决策过程转化为自然语言输出,提升决策的可解释性与安全性,有助于L3及以上高阶自动驾驶商业化 [14] 技术路线的核心权衡与发展趋势 - 短期在L2-L3级辅助驾驶量产场景中,WEWA架构的低时延、低成本优势更具现实价值,通行效率可提升20% [15] - 长期在L4-L5级完全自动驾驶非结构化道路场景中,VLA的认知优势将不可替代,成为核心竞争力 [16] - 行业出现混合架构趋势,华为在WEWA中预留“语义接口”,小鹏通过“模型蒸馏”压缩大模型,取二者之长 [17] - 自动驾驶是否加入语言模块取决于语言模型的性价比,即抽象优势与算力开销的比值是否划算 [17] - 大语言模型是“高阶智能的催化剂”,在量产落地中WEWA更具效率优势,在完全自动驾驶目标中VLA的抽象能力是不可逾越阶段 [18]
英伟达一篇长达41页的自驾VLA框架!因果链推理,实车可部署算法Alpamayo-R1
自动驾驶之心· 2025-11-05 08:04
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Yulong Cao等 英伟达许久不见自动驾驶方向的论文工作,昨天直接放了个大招,难得啊。。。 一篇长达41页的自动驾驶VLA框架 — Alpamayo-R1。Alpamayo-R1指出基于模仿学习的端到端架构,在长尾场景中的表现能力很差,这是由于监督信号稀疏并且因 果推理的理解能力不足。另外现有自驾VLA的框架没办法显式约束思维链和决策行为之间的关联,一方面可能出现幻觉的问题,另一方面也没办法保证因果理解的 正确性。举个错误的例子:左转是红灯,但由于直行是绿灯所以允许车辆左转。 为了解决这些问题,Alpamayo-R1将因果链(Chain of Causation)推理与轨迹规划相融合,以提升复杂驾驶场景下的决策能力。本文方法包含三大核心创新: 结果表明,相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%;在闭环仿真中,偏离车道率降低35%,近距离碰撞率降低25%。经强 化学习后训练(RL po ...
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 08:03
文章核心观点 - 文章通过分享苹果姐的职业发展案例,强调在自动驾驶行业成功需要抓住机会并持续学习转型 [1] - 自动驾驶之心知识星球是一个综合性技术社区,提供超过40个技术方向的学习资源和行业交流平台 [4][7][10] - 社区目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [4] 社区资源与内容 - 社区汇总了近40+技术路线,涵盖BEV感知、端到端自动驾驶、多传感器融合等核心领域 [7][10][17] - 提供近60+自动驾驶数据集、行业主流仿真平台和各种技术学习路线 [16] - 社区内部梳理了自动驾驶100问系列,包括TensorRT模型部署、毫米波雷达融合等实用问题 [10] - 拥有超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果 [91] 学习与课程体系 - 社区提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、3D目标检测等热门方向 [89] - 原创直播课程包括感知融合、多传感器标定、SLAM与高精地图等8大系列 [11] - 为入门者提供全栈方向学习课程,适合0基础小白系统学习 [10][11] 行业连接与就业支持 - 社区成员来自上海交大、北京大学、CMU等知名高校和蔚小理、华为、英伟达等头部企业 [16] - 与多家自动驾驶公司建立内推机制,提供大模型-端到端算法工程师等热门岗位推荐 [12] - 社区定期分享行业机会挖掘、投资与项目对接信息 [21] 技术领域覆盖 - 重点技术方向包括:VLA学习路线、多模态大模型、Occupancy Network、3DGS与NeRF等 [17][38][41][48] - 详细梳理了端到端自动驾驶的一段式/二段式方案、量产方案和VLA相关算法 [38][48] - 覆盖BEV感知、3D目标检测、轨迹预测、规划控制等自动驾驶核心技术栈 [17][50][54][56]
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心· 2025-11-04 08:03
技术挑战与解决方案 - 自动驾驶视觉-语言-动作模型面临“监督缺失”问题,其庞大模型能力仅由稀疏、低维的动作信号监督,导致大部分表征潜力未被充分利用[3] - 中科院和华为引望团队提出DriveVLA-W0训练范式,利用世界模型预测未来图像以解决监督缺失问题[3] - 针对离散视觉token的VLA模型设计自回归世界模型,针对连续视觉特征的VLA模型设计扩散世界模型[3] - 基于世界建模学习的丰富表征,引入轻量级动作专家以解决实时部署中的推理耗时问题[3] 模型性能与数据规模效应 - 在NAVSIM v1/v2基准测试和规模大680倍的内部数据集上,DriveVLA-W0显著优于BEV和VLA基线方法[5] - 该技术放大了数据Scaling Law效果,表明随着训练数据集规模增大,性能提升速度会加快[5] - 模型在7000万帧数据上真正放大了VLA的数据扩展定律[8] 技术架构与应用前景 - DriveVLA-W0通过世界模型提供稠密自监督,实现从“监督赤字”到“定律放大”的转变[9] - 该研究为构建更通用的驾驶智能提供了充满前景的道路[3] - 技术分享重点涵盖自动驾驶VLA的“监督赤字”挑战、世界模型破解稀疏监督的方法以及DriveVLA-W0的架构与性能[12]
工业界大佬带队!三个月搞定3DGS理论与实战
自动驾驶之心· 2025-11-04 08:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 在机器视觉领域中,新视角合成的核心目标是通过图像或视频构建可以被计算机处理和理解的3D模型。进而催生了大量的应用,包括3D建模、虚拟现实、自动驾 驶闭环仿真等等。但早期的算法像SfM、MVS受限颇多。直到2020年的NeRF打破了这一僵局,但NeRF仍然面临计算效率和可编辑差的问题。所以23年的3DGS一 经问世便迅速火爆起来。 但3DGS的技术迭代速度远超想象。静态重建3DGS、动态重建4DGS、表面重建2DGS,但per-scene optimization的方法用起来实在不方便,因此进一步催生了feed- forward 3DGS。目前3DGS在学术界和工业界都很吃得开,很多同学想入门却苦于没有有效的学习路线图:既要吃透点云处理、深度学习等理论,又要掌握实时渲 染、代码实战,零散查资料自学往往越学越懵,遇到问题连个请教的人都没有。 为此我们花了两个月的时间设计了一套3DGS的学习路线图,从原理到实战细致 展开。 自动驾驶之心联合 工业界算法专家 开展了这门《3DGS理论与算法实战教程》!课程包含2DGS ...
和一些人交流后, 更深入的分析地平线HSD
自动驾驶之心· 2025-11-04 08:03
以下文章来源于理想TOP2 ,作者理想TOP2 理想TOP2 . 找对社群,深度交流理想长期基本面 接触到的3位地平线人员都是诚实、事实求是、不浮夸的锚点: A在PPT中主动提了在极端天气/非标场景/复杂博弈下辅助驾驶表现一般,且不是简单提提,是明确细化论述了。甚至还有一个提问环节是,问以下那个车为自动驾驶 车?ABC都不是搭载地平线方案的车,D是搭载地平线方案的车,结果答案是ABC。 B表示从大批量数据来看,漫游到衔接辅助驾驶体验有时会不好,涉及到必须通过加塞从而让导航继续下去的场景时体验一般,还有各种corner case,北京遇到xxx情 况可能一般,上海遇到xxx情况可能一般。(B说的东西TOP2试驾均没遇到,试驾过程体验本身是非常不错的) 作者 | 理想TOP2 来源 | 理想TOP2 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 建议读者侧重观察TOP2观点背后的视角,充分批判性看待其观点本身,尤其不要默认TOP2观点为真。 为了追求严谨性,本文大量内容 ...
人形机器人大概要进入第一轮寒冬
自动驾驶之心· 2025-11-03 16:55
以下文章来源于天南AI茶馆 ,作者天南 天南AI茶馆 . 全网最有趣的全栈人形机器人博主,擅长给技术圈讲产业,给产业圈讲技术。 作者 | 天南 来源 | 天南AI茶馆 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 最近,见证了人形机器人行业太多的不及预期。很多人问我,从技术角度上来看,人形机器人行业是否要进入一段寒冬了。 今天我们通过理性的逻辑分析,来看目 前行业发展的真实情况。 导读 最近看到了太多的不及预期。 国外公司的表现和大牛预言都不是很乐观: 特斯拉Gen2 因为发热、灵巧手短命的问题,被迫暂停今年的量产计划。而Gen3再次跳票,推迟到明年Q1。 Figure03 本来 万分期待,但 被时代周刊爆出来多次拍摄剪辑。 Meta 首席 AI 科学家 LeCun ,说 机器人行业远未实现真正智能。而 Google deepMind负责人 最近也提到:人形机器人进入家庭市场至少还要5- 10年。 反观国内,倒是有些虚假的繁荣: 订单飞起 ,但被爆出多数为左手倒右手 ...
端到端和VLA,这些方向还适合搞研究
自动驾驶之心· 2025-11-03 08:04
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分,行业建议学习前沿理论、底层基础理论和代码能力以应对技术快速迭代[1] 课程内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的技术演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,复现扩散模型、VLA等主流算法,学完后可达1年左右端到端自动驾驶算法工程师水平[5] 导师资质与行业资源 - 主讲导师为C9本科+QS前50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家,主持过多项自动驾驶感知和端到端算法的量产交付[6] - 公司拥有300+专职于自动驾驶/具身智能方向的导师,来自全球QS前100高校,近3年辅导学员超400名,中稿率达96%[8][15] - 优秀学员可获得清北/MIT等名校推荐信或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] 科研辅导服务 - 辅导覆盖选题、调研、idea验证、代码实现、实验、润色、投稿全流程,目标包括CCF-A/B/C、SCI1-4区、EI会议等[15] - 服务包含班主任全程督学,针对零基础学员提供基础课程,承诺6个月可完成一篇小论文[18] - 通过精准匹配系统从300+导师中筛选3-5位方向契合者,支持试听和退款机制[18][19]
招募自动驾驶产品经理/4D标注方向的合作伙伴
自动驾驶之心· 2025-11-03 08:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近收到越来越多业内小伙伴和公司的诉求,希望自动驾驶之心能够在企业培训和求职辅导等方向上赋能。 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到 端等多个方向。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人群)、 课程开发和原创文章创作。 联系我们 感兴趣的可以添加微信wenyirumo做进一步咨询。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优秀的伙 伴加入我们。 现面向全球的自动驾驶领域从业者发出邀请函,自动驾驶之心期望能够和您在技术服务、培训、课程开发与科 研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 ...
对理想25年10月交付31767辆的分析
自动驾驶之心· 2025-11-03 08:04
2025年10月交付表现分析 - 2025年10月公司交付31767辆汽车,被定性为低水平的交付数字[2] - 交付量不佳的原因大致可拆分为L系列订单表现不佳、i68车型产能不足、以及MEGA车型正常发挥[3] - 准确的分车型交付预期需等待11月10日或之后几天公布[2] i8车型产能问题分析 - i8车型面临产能不足的核心原因是其低配版选装率过低,仅为2%左右,导致电池供应商宁德时代难以临时提升产能[4][9] - i8车型的配置选择策略与L78系列不同,其顶配与中配价差更小(2万元对3万元),但配置差距更大[4] - 最终i8的配置选择分布为约2%低配、20%中配、80%高配,这与L78系列(L7低配22%、L8低配37%)的配置选择模式完全不同,是产能问题的直接原因[8][9] i6车型产能问题分析 - i6车型同样面临产能不足,原因是公司主动决定在2025年不交付采用欣旺达电池的版本,而宁德时代也难以临时提升产能[10] - 有推测认为,i6车型7万辆的订单可能超出了公司预期,若公司提前知晓此情况,可能会选择提供2025年交付欣旺达电池版本的选项[11] 电池供应商决策背景分析 - 公司在电池供应商选择上可能面临连续误判的困境,包括L系列焕新销量、i8低配选装率、MEGA销量预期等,同时需应对舆情对选择宁德时代的强烈呼吁[13] - 在连续误判后,坚持非共识看法需承担较大责任,而顺应舆情则属于集体责任,这种氛围下难以主张使用欣旺达电池[13] - 预期公司未来几年在电池问题上的思路可能是采用“宁德时代+理想欣旺达合资公司”并在工信部申报使用理想品牌电池的方案[13] L系列订单不佳原因假说 - L系列订单不佳存在多种解释假说,包括竞品迭代快公司迭代慢、竞品过多、未及早采用大电池、明年换代导致今年购买意愿低、经济大环境不佳、销售管理水平不佳等[14] - 其他假说还包括公司进入阶段性负向循环周期、增程技术落后、理想纯电车型性价比过高、以及组织整体混乱和价值观稀释等[14] - 高维度抽象来看,这些假说核心指向产品力不足、价值传递不佳、以及组织出现问题三个方面[15] 未来季度交付量传闻 - 有未经证实的传闻称,公司在2025年第四季度预计交付约10万辆汽车,2026年第一季度的交付量表现尚可[16]