Workflow
自动驾驶之心
icon
搜索文档
揭秘小鹏自动驾驶「基座模型」和 「VLA大模型」
自动驾驶之心· 2025-09-18 07:33
小鹏自动驾驶技术方法论 - 提出自动驾驶软件3.0时代概念 即"AI模型即软件" 整个软件栈由端到端AI模型构成 基于以数据为中心的方法迭代[6] - 公司处于将整个自动驾驶软件栈构建为端到端AI模型驾驶汽车的阶段[8] - 基于规模定律(scaling law) 利用每天从数十万辆真实世界车辆收集的大量数据训练大型视觉模型作为"工厂"[8] 基础模型与部署架构 - 通过大数据构建基础模型 无需依赖三维空间先验知识和空间问题 类似世界模型概念[8] - 通过深度裁剪 量化 蒸馏将基础模型压缩为更小版本 部署到车端硬件[8] - 在云端构建VLA(视觉语言动作)基础模型 通过蒸馏剪枝和微调训练部署到车端[32] 内外循环训练机制 - 内循环为每个模型创建训练流 扩展数据后进行再训练和监督微调(SFT) 持续提升模型性能[9] - 外循环通过数十万辆车作为现实世界数据采样器 持续采样数据 根据返回数据持续训练(协同训练)[11] - 重复内外循环过程直至性能达到L4级自动驾驶 公司目标2026年实现L4级智驾车型量产[11][13] VLA模型训练方法 - 采用阿里Qwen作为原始VLM模型 使用公司整理的驾驶数据进行预训练和对齐[15] - 预训练数据分类包括静态交通元素 动态交通参与者 点对点轨迹数据 占用网络 交通信号灯和交通流信息[18] - 基于Chain-of-Thought思维链进行四步推理:提供基本驾驶知识 CoT SFT 强化学习CoT 考虑延迟的CoT SFT[22][23] 模型优化与安全强化 - 监督微调(SFT)建模为"指令遵循"任务 使用筛选的好数据专门训练导航 舒适刹车等专用指令[27] - 后期训练(post-training)采用强化学习解决长尾案例 建立奖励模型确保行动一致性[29] - 强化学习设计三重奖励机制:安全(避免碰撞) 效率(避免卡壳) 合规(遵守交通规则)[30] 行业竞争核心要素 - 底层算法和架构相通 行业差距取决于高质量数据 大算力以及算法产品化和工程落地能力[32] - VLA概念需要基础成熟的LLM作为底座 针对性训练交通驾驶行为[32] - 基础模型蒸馏上车思路可加速开发并快速部署到不同算力平台 但前提需要大算力和高质量数据[32]
超高性价比3D扫描仪!点云/视觉全场景厘米级重建
自动驾驶之心· 2025-09-18 07:33
产品核心特点 - 面向工业场景和教研场景的超高性价比3D扫描仪 轻量化设计 一键启动 实现高效实用的三维解决方案[1] - 以多模态传感器融合算法为核心 实现厘米级精度的三维场景实时重构 可广泛用于多种作业领域[1] - 每秒20万级点云成图 70米测量距离 360°全域覆盖 支持20万平米以上的大场景扫描[1][29][30] - 可选配3D高斯数据采集模块 实现高保真实景还原 支持跨平台集成[1][50] - 配备高带宽网口及双USB 3.0接口 为科研实验提供灵活扩展空间[1][22] 技术参数 - 系统运行于ubuntu 20.04 支持ROS 相对精度优于3cm 绝对精度优于5cm[22] - 尺寸14.2cm*9.5cm*45cm 重量1.3kg(不含电池) 续航时间约3-4小时 存储容量256G[22] - 采用Intel N5095处理器 4核2.0GHz 内存16G/硬盘256G 支持WIFI/蓝牙连接[22] - 配备Livox Mid-360激光雷达 Intel D435i深度相机 T-RTK UM982 Mobile定位模块[22][23] - 支持微秒级硬件同步触发 同步精度达微秒级 IMU频率最高800Hz[23][34] 操作特性 - 操作简单直观 一键启动即可执行扫描作业 扫描结果导出即用[5] - 设备自带手持Ubuntu系统和多种传感器 手柄集成电源系统[3] - 支持实时解算 输出数据格式包括pcd, las, plv等多种通用格式[22] - 提供彩色点云建图功能 支持高 中 低曝光参数调节[42] - 配备5.5寸触控屏(1280x720分辨率) 支持数据实时预览[22] 应用场景 - 适用于写字楼 停车场 工业园区 隧道 森林 矿场等复杂室内外场景[38][46] - 支持跨平台集成 适配无人机 无人车 机械狗 人形机器人等多种负载平台[44] - 可用于地理信息数据采集 城市规划 文物监测 工程监理等领域[52][54] - 支持20万平米以上大场景实时扫描 结果实时查看 支持彩色融合[30] 产品版本与定价 - 基础版本售价19800元 包含主机 软件 RTK配件和在线用户手册[57][58] - 深度相机版本售价23800元 在基础版上增加深度相机[57][58] - 3DGS在线版本售价39800元 包含3D高斯采集配件 赠送两个月云服务(月费5000元)[57][58] - 3DGS离线版本售价67800元 包含本地渲染软件 需客户自备高性能服务器[57][58] - 所有版本均提供专业工程师培训支持服务 购买后提供1年售后服务[58][60]
前理想CTO跨行具身创业,多家资本助力......
自动驾驶之心· 2025-09-17 11:26
具身智能行业动态 - 元璟资本投资合伙人、前理想汽车CTO王凯已投入具身智能创业 [2] - 某头部自驾技术高管即将参与具身智能创业 [2] 融资情况 - 成立数月便获得红杉资本、蓝驰资本等多家机构累计5000万美元投资 [3] 创始人背景与能力 - 王凯2020年加入理想汽车负责智能驾驶相关研究 涉及座舱、自驾、操作系统和平台 [3] - 王凯推动了地平线芯片方案量产 2022年离开理想加入元璟资本担任投资合伙人 [3] - 另一位自驾高管参与某头部新势力的端到端与VLA量产工作 [3] 资本关注重点 - 具身智能赛道目前比较火热 [3] - 创始人的量产能力是资本非常看好的关键因素 [3] - 具身智能领域需要量产能力强的人才推动商业化进程 [3]
自动驾驶之心企业合作邀请函
自动驾驶之心· 2025-09-17 10:01
自动驾驶之心是具身智能领域的优秀创作和宣传的媒体平台。近一年内,我们和多家自驾公司签订 长期合作事项,包括但不限于品牌宣传、产品宣传、联合运营等。 我们期待进一步的合作!!! 联系方式 随着团队的不断扩大,我们期望在上述业务上和更多优秀的公司建立联系,推动自驾领域的高速发 展。欢迎有相关业务需求的公司或团队联系我们。 添加商务微信oooops-life做进一步沟通。 ...
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-17 07:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
3D/4D World Model(WM)近期发展的总结和思考
自动驾驶之心· 2025-09-17 07:33
作者 | 明仔 matrix 来源 | 机智流 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 说在前面的话 有关具身智能,在今年前三季度的大部分工作和思考仍旧集中在 数据的收集和数据的利用 上——即 如何高效的利用视频的示例数据去训练 一个性能表现都不错的基础模型的研究。这个上半年一直持续挖掘的工作,似乎也没有激起很多的水花。大家在分析和总结前期遇到的问题的 时候,不免会对一些无法清晰回溯的内容进行质疑, 即在数据采集上是否有大问题,我们对于数据的利用上的思考是否还存在很大的不足。 于是,在对数据分析的过程中, 3D/4D的世界模型 开始重新回归大家的思考。即针对所采集的数据合理性和丰富性进行进一步拓展优化的研 究思路。 从目前行业发展来看,最近的3D/4D的世界模型也开始走成了两派的思路即 隐式 和 显式 的两种研究主张: 一个金色头发的老头正在参观一个中式的客厅 从实际的应用上看感觉两者的局限性在一开始就暴露得清晰无疑,然后我们对于这些局限性似乎也没有很好的一个 ...
面对已读乱回的AI,到底要如何分辨真假?哈工大&华为大模型幻觉综述!
自动驾驶之心· 2025-09-17 07:33
大模型幻觉定义与分类 - 大模型幻觉指大语言模型在回复中出现的常见错误,包括事实矛盾、事实编造、指令不一致、内容不一致和逻辑不一致 [2][8][9][10][11] - 事实型幻觉分为事实矛盾(实体错误和关系错误)和事实编造(不可验证和夸大幻觉) [8] - 忠实型幻觉分为指令不一致、内容不一致和逻辑不一致 [9][10][11] 大模型训练与幻觉原因 - 大模型训练包括预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)三个阶段 [7] - 数据部分导致幻觉的原因包括错误数据、社会偏见、知识边界和低质量未校准数据 [17][18][19][21][23] - 训练部分导致幻觉的原因包括预训练阶段模型结构限制、微调阶段过拟合和RLHF阶段谄媚现象 [26][30][32] 幻觉检测方法 - 事实检测分为事实提取和事实验证(外部检索和内部检查) [42] - 不确定性估计方法包括LLM内部状态(标记概率、熵、自我评估)和LLM行为(直接查询、间接查询、多agent视角) [42][43][44] - 忠实性幻觉检测指标包括基于事实、分类、问答、不确定性和LLM评判的方法 [47][48][49][50][51] 幻觉基准 - 幻觉评估基准量化LLM产生幻觉的倾向,重点关注长尾知识和易引起捏造虚假的问题 [53] - 幻觉检测基准评估现有幻觉检测方法性能,针对特定任务如数据生成文本和机器翻译 [54] - 现有基准包括TruthfulQA(817条数据)、REALTIMEOA(动态数据)、HaluEval(30,000条通用数据)等 [55] 幻觉缓解策略 - 通过数据减少幻觉的方法包括数据过滤、模型编辑(定位-编辑和元学习)和检索增强生成(RAG) [57][58][61] - 减少训练产生幻觉的方法包括优化模型结构、训练方式以及避免SFT和RLHF阶段数据冲突 [62] - 减少推理产生幻觉的方法包括事实增强解码和忠诚增强解码(上下文一致性和逻辑一致性) [64][65] 检索增强生成中的幻觉 - 检索失败原因包括用户查询制定(盲目检索、模糊查询、复杂查询)、检索数据源可靠性和检索器性能 [68][69][71][72] - 生成瓶颈涉及上下文感知(嘈杂检索、上下文冲突、未充分利用上下文)和上下文对齐(来源归属和忠实解码) [74][75]
国内首个自动驾驶VLA实战课程来了(模块化/一体化/推理增强VLA)
自动驾驶之心· 2025-09-16 18:49
技术趋势转变 - 智能驾驶从规则驱动转向数据驱动 端到端和VLM技术标志着根本性转变 [1] - 端到端技术提供打通上下游视角的能力 但在复杂困难场景中仍受限 [1] - VLA技术取消传统端到端的复杂3D感知任务 借鉴VLM的通用泛化能力 提供解决corner case的可能性 [1] 技术发展现状 - 自动驾驶VLA技术栈尚未收敛 多种算法如雨后春笋般出现 [2] - 学习路径涉及视觉感知 语言模块 动作模块 配套大模型前沿技术包括RAG CoT 强化学习 MoE等技术栈 [2] - 领域面临论文数量繁多 知识碎片化 缺乏高质量文档等入门挑战 [2] 课程设计特点 - 基于Just-in-Time Learning理念 通过通俗语言和案例帮助快速掌握核心技术栈 [3] - 梳理自动驾驶VLA研究发展脉络 帮助形成个人研究体系和工作经验 [4] - 配备实战环节 完成从理论到实践的完整闭环 [5] 课程内容体系 - 涵盖VLA算法发展历史 开源BenchMark和评测指标 [14][15] - 包含Vision Language Action三大模块基础知识和开源大模型部署实践 [17] - 专题讲解VLM作为自动驾驶解释器的经典和最新算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA [19] - 深入解析模块化VLA的多阶段pipeline和一体化VLA的端到端映射技术 [21] - 配套ReCogDrive实战代码 包含预训练 模仿学习 强化学习GRPO 扩散模型轨迹输出等技术栈 [22] - 聚焦推理增强VLA子领域 讲解Chain-of-Thought 记忆体 工具调用等推理模块 [24] - 配套Impromptu VLA实战代码 基于Qwen2.5 VL进行数据集制作 训练和推理 [24] - 大作业基于ms-swift框架 自定义数据集和加载模型 提供V-L-A各部分代码解读 [26] 技术覆盖范围 - 涵盖OpenDriveVLA DriveMoE DiffVLA S4-Driver ORION FutureSightDrive AutoVLA Drive-R1等前沿算法 [29][30] - 涉及视觉感知 多模态大模型 强化学习等关键人工智能技术 [31] - 要求学员掌握transformer大模型 强化学习 BEV感知等基础概念 [31] 教学安排 - 课程周期两个半月 从10月20日开始分章节解锁 [32] - 教学方式包括离线视频教学 vip群答疑和三次线上答疑 [32]
BEVTraj:一个端到端的无地图轨迹预测新框架
自动驾驶之心· 2025-09-16 15:22
研究背景与问题 - 高精地图依赖成为自动驾驶规模化应用的主要瓶颈 其制作和维护成本高昂 覆盖范围有限 且无法应对道路动态变化[1][3] - 学术界和工业界探索两种解决方案:在线建图方案仍依赖建图模块 无图方案彻底放弃地图直接从原始传感器数据学习[4][6] BEVTraj框架核心架构 - 采用纯鸟瞰图空间端到端框架 包含场景上下文编码器和迭代式可变形解码器两部分[7] - 场景上下文编码器通过传感器融合模块生成BEV特征图 并采用可变形注意力机制高效聚合关键场景特征[11] - 迭代式可变形解码器创新性地使用稀疏目标候选提案模块 仅生成少量高质量目标候选点 大幅提升计算效率[13] - 通过迭代式轨迹细化过程 利用可变形注意力沿预测轨迹查询BEV特征 逐步修正完善轨迹预测[14] 性能表现与实验结果 - 在minADE10指标上达到0.9438 优于对比的SOTA模型如MTR(1.0446)和Wayformer(0.9877)[18] - 在minFDE10指标上取得2.0527 表现优于Autobot(2.3294)和MTR(2.2840)[18] - 在miss rate指标上达到0.3082 优于所有对比模型包括MTR(0.4240)和Wayformer(0.3868)[18] - 在无地图设置下 minADE10为0.6249 与有地图模型性能相当 验证了无地图方案的可行性[20] 技术价值与行业影响 - 首次验证无地图轨迹预测方案的可行性 性能达到甚至超越依赖高精地图的SOTA模型[26] - 通过摆脱高精地图依赖 为自动驾驶系统在更广泛区域部署扫清障碍 提升系统灵活性与可扩展性[26] - 提供高效的端到端架构设计范式 结合可变形注意力和稀疏目标提案等创新技术[26] - 代码开源将促进无地图感知预测研究方向的发展 推动行业技术进步[26]