自动驾驶之心
搜索文档
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 08:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]
理想端到端自进化智能体系统CorrectAD
自动驾驶之心· 2025-12-09 08:03
文章核心观点 - 西湖大学、理想汽车与天津大学联合提出名为CorrectAD的自校正智能体系统,旨在通过自动化流程解决端到端自动驾驶模型的长尾故障问题,该系统通过PM-Agent分析故障原因并生成多模态数据需求,再通过DriveSora生成高保真训练数据,最终通过迭代微调持续优化模型,在nuScenes和内部数据集上分别实现了62.5%和49.8%的故障修复率,并将碰撞率降低了39%和27% [3][10][53][77] 当前行业痛点 - 手工收集罕见且危险的长尾故障(如低能见度碰撞)数据成本极高,需数周时间和数千美元,扩展性差 [5] - 现有检索式数据扩充方法(如AIDE)仅能从现有数据集中筛选相似场景,无法覆盖未见过的长尾故障,难以从根源修正模型缺陷 [6] - 现有驾驶场景生成模型(如MagicDrive)可控性差,无法精准匹配故障修正所需的特定场景特征,生成数据与故障关联性弱 [7] - 缺乏有效机制将端到端模型的故障案例转化为生成模型可理解的精准需求,导致生成的数据无法针对性解决问题 [8] CorrectAD系统核心架构与价值 - 系统首创“智能体析因→定向生成→迭代微调”的自校正范式,首个实现端到端自动驾驶故障自校正的智能体系统 [10][74] - 核心模块PM-Agent模拟产品经理角色,基于视觉语言模型进行多轮推理,分析故障原因并生成包含BEV布局和场景描述的多模态数据需求 [9][10] - 核心模块DriveSora是一个可控的多视图视频生成模型,基于STDiT架构,能生成与3D标注对齐的高保真自动驾驶场景视频 [9][10] - 系统采用模型无关设计,可适配UniAD、VAD等主流端到端规划器,无需为特定模型定制 [10][71] - 系统通过迭代自校正循环(故障分析→需求生成→数据生成→模型微调→评估)持续运行,使生成数据分布逐步逼近故障场景分布,实现性能持续优化 [9][73] - 其落地意义在于将故障修正周期从数周缩短至数天,大幅降低数据迭代成本,可直接集成到车企现有模型优化流程中 [10] PM-Agent(故障分析与需求制定)模块详解 - 首先对故障案例进行聚类分析,通过专家标注和GPT-4o提取关键词,最终将故障原因归类为“前景”、“背景”、“天气”三大类别 [18] - 采用多轮问询策略进行故障分类与细化:第一轮,视觉语言模型根据6视图视频和规划轨迹输出故障类别及置信度;第二轮,对高置信度类别进一步细化具体原因 [22] - 基于分析出的故障原因,利用大语言模型生成结构化的场景描述(如“雨天、低能见度、前车突然减速”) [25] - 通过语义检索从训练集中找到与场景描述匹配的真实场景,并提取其BEV布局,包括背景的道路边界线和前景的3D边界框坐标、航向角等信息 [27] - 将场景描述与BEV布局组合,形成驱动数据生成的多模态需求 [31] - 多轮推理策略显著提升了需求准确性,将需求与故障案例的语义距离从单步推理的4.66降至3.49,能更全面地覆盖故障关键因素 [33] DriveSora(高保真数据生成)模块详解 - 基础架构为时空扩散Transformer,并进行了多项关键技术优化 [35] - 通过集成ControlNet-Transformer,将BEV布局中的道路草图和3D边界框作为约束条件注入模型,实现生成视频与3D布局的精准对齐 [35][38] - 采用参数无关的多视图空间注意力机制,通过重塑特征并应用自注意力,使不同视图的特征在同一注意力窗口中交互,提升了多视图间车辆位置、航向角的一致性达15%,并降低了FVD指标2.8% [36][38] - 采用多条件无分类器引导技术,在训练和推理中联合优化文本、前景布局、背景布局等多个条件的对齐,强化了语义与布局的协同约束 [37] - 生成视频后,使用预训练的3D检测器进行自动3D边界框标注,并通过卡尔曼滤波平滑得到连续轨迹,输出格式与nuScenes数据集一致,可直接用于模型微调 [38][41] - 在生成质量上超越现有先进模型,FID为15.08,FVD为94.51,NDS为36.58,均达到SOTA水平 [54][70][77] 实验性能与关键发现 - 在nuScenes数据集上,CorrectAD将基线模型的碰撞率从0.35%降低至0.19%(降低39%),L2轨迹误差从1.25米改善至0.98米,故障修复率达到62.5% [53] - 在内部挑战性数据集上,CorrectAD将碰撞率从0.26%降低至0.19%(降低27%),L2误差从1.06米改善至0.62米,故障修复率达到49.8% [53] - 消融实验表明,完整CorrectAD系统性能最优,仅使用DriveSora(无PM-Agent)或仅使用PM-Agent(无DriveSora)均无法达到最佳效果,证明了双模块协同的价值 [58] - 多轮迭代效果显著:经过三轮迭代,生成数据与故障案例的分布差异(Hellinger距离)从0.15降至0.09,模型碰撞率从0.26%持续降至0.19% [47] - 定性结果显示,系统能有效修复如低能见度夜间碰撞等故障,且DriveSora生成的数据在多视图一致性、可控性(如车辆属性编辑、天气转换)方面表现优异 [60] 系统当前局限与未来方向 - 当前主要将碰撞视为故障,未涵盖车道违规、交通规则违反等更多故障类型 [68] - 生成效率有待提升,DriveSora模型参数量为1.1B,训练需8块A800 GPU耗时72小时,在L40S GPU上推理单样本需4秒 [68] - 对多智能体复杂博弈交互场景的生成能力不足 [68] - 未来方向包括扩展故障评估维度、集成快速扩散模型以提升生成效率、引入博弈论增强复杂场景生成能力,以及与真实车辆部署流程结合实现线上实时闭环迭代 [75]
25年国内L4融资已突破300亿
自动驾驶之心· 2025-12-09 08:03
行业融资与市场动态 - 2025年国内L4自动驾驶融资规模已突破300亿元人民币,创历史新高,较2023年约84亿元增长约257% [2] - 物流配送和Robotaxi成为两大主流赛道,头部企业和已落地场景获资金青睐 [2] - 行业趋势呈现L2渗透狂奔、L3落地在即、L4规模破局的特点,自动驾驶已进入技术深水区 [2] 近期代表性融资与上市案例 - 造父智能于今年6月份融资30亿元人民币,投资方包括哈啰出行、蚂蚁集团、宁德时代 [7] - 新石器无人车于十月获得由阿联酋磊石资本领投的6亿美元融资 [7] - 小马智行于十一月在港交所IPO,募资额达77亿港元 [7] - 文远知行于十一月在港交所IPO,募资额约24亿港元 [7] - 滴滴自动驾驶于十月完成20亿元人民币的D轮融资,资金用于加大AI研发投入、推动L4自动驾驶应用落地 [7] - 卓驭科技于十一月获得中国一汽战略投资36亿元人民币 [7]
清华&小米最新DGGT:0.4秒完成4D自驾高斯重建,性能提升50%!
自动驾驶之心· 2025-12-08 08:02
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上均表现出显著优势 [2][3][6] - DGGT不仅是一个重建工具,更是一个可编辑的4D场景资产生成器,其输出可直接用于自动驾驶仿真、评测与数据合成等下游任务 [21] 技术架构与原理 - 核心思想是将相机位姿从输入前提转变为模型输出,实现无需外参标定即可从稀疏、未标定图像中恢复动态场景 [6] - 采用ViT编码器融合DINO先验,通过多头联合预测结构(相机、4D Gaussian、寿命、动态/运动、天空等)一次前向输出完整的4D场景状态 [10][12] - 通过lifespan head建模场景随时间的外观演变,配合单步扩散精修,有效抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现与量化指标 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的渲染质量,在速度与精度上优于前向与优化方法 [8][11] - **深度与运动估计精度**:在Waymo数据集上,深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,优于对比方法 [11] - **关键组件消融影响**:去除lifespan head会导致PSNR从27.41显著下降至24.21,证明其对建模静态区域时间维度变化至关重要 [11][17] 跨数据集零样本泛化能力 - 模型仅在Waymo数据集上训练,但在nuScenes和Argoverse2数据集上无需微调即实现强劲的零样本泛化 [3][15] - 在nuScenes上,LPIPS指标从STORM的0.394降至0.152,降幅达61.4%;在Argoverse2上,从0.326降至0.155,降幅达52.5% [13][15] - 这种跨域鲁棒性主要得益于其pose-free设计,减少了对固定拍摄轨迹与相机配置的依赖 [15] 可扩展性与输入鲁棒性 - 模型支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值(NVS)指标保持稳定,而对比方法(如STORM)性能出现明显下滑 [16] - 这表明DGGT不仅适合研究场景,更适合处理大规模日志数据与进行工程级批量重建 [16] 场景编辑与应用潜力 - 支持在3D Gaussian表示层面进行实例级编辑,如对车辆、行人等目标进行添加、删除、移动等操作 [20] - 编辑后通过扩散精修模块自动填补空洞、平滑边界,使合成结果在几何与外观上保持自然可信 [20] - 输出包括相机姿态、深度、动态分割、3D Gaussian、追踪等可编辑资产,便于后续的仿真与数据合成 [6][21]
入门自动驾驶实操,全栈小车黑武士001性价比拉满了!
自动驾驶之心· 2025-12-08 08:02
产品概述 - 公司推出“黑武士001”自动驾驶全栈小车,定位为教研一体轻量级解决方案,旨在解决科研级平台价格高昂与教学套件不完整、上手慢的痛点 [2][4] - 该产品核心优势在于性价比高,售价为36999元,并宣称能快速上手,支持感知、定位、融合、导航、规划等多个自动驾驶功能平台 [2][4] - 产品目标用户包括本科生学习与比赛、研究生科研与求职、高校实验室以及职业培训机构 [4] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能2D激光雷达(最大范围25m)、奥比中光Gemini2深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU(采样率100Hz) [22][31] - 计算单元采用NVIDIA Jetson Orin NX核心开发板,配备16GB RAM,AI算力为100 TOPS [34] - 底盘采用阿克曼转向结构,车体尺寸为620mm x 400mm x 320mm(长x宽x高),自重30kg,最大载荷30kg,最大运动速度可达2m/s,续航时间大于4小时 [23][25][26] 软件与功能 - 软件基于ROS框架,支持C++和Python语言开发,提供一键启动和完整的开发环境 [28] - 支持丰富的自动驾驶功能,包括2D/3D激光SLAM、视觉惯性SLAM、多传感器融合SLAM、点云3D目标检测、2D目标检测与分割、车辆导航与避障等 [29] - 产品说明书详细列出了从系统启动、传感器驱动到各功能模块使用的完整操作流程 [30][41] 效果展示与测试 - 产品在多种场景下进行了功能测试,包括户外公园行驶、室内地库2D/3D激光建图、上下坡以及室外夜间行驶等,展示了其感知、定位、导航规划等能力的适应性 [6][8][12][14][16][18][20] - 具体功能展示包括点云3D目标检测和室外大场景3D建图 [10][18] 销售与售后 - 产品当前正式开售,购买即赠送模型部署、点云3D检测及多传感器融合三门课程 [2] - 提供1年非人为损坏保修服务,保修期内因个人操作或代码修改导致的损坏提供免费维修,但邮费需用户自理 [52]
从 LLaVA 到 Qwen3-VL:解构多模态大模型的演进之路
自动驾驶之心· 2025-12-08 08:02
多模态大模型(MLLM)的技术架构演进 - 行业正经历从纯文本模型向能听、会看、可交互的智能体的深刻变革,其核心在于多模态大模型的发展[1] - 当前主流的多模态大模型普遍遵循“三位一体”的黄金架构,由视觉编码器(眼睛)、大语言模型(大脑)和连接器(桥梁)协同工作[3][5][6] 视觉编码器(Vision Transformer) - Vision Transformer是视觉编码的核心技术,它摒弃传统卷积神经网络,将图像视为序列化文本来处理[7] - ViT的工作流程包括:将图像分割成固定大小的图块序列、将图块展平并线性投影为视觉词元向量、为词元注入位置信息以理解空间布局、最后通过Transformer编码器进行深度特征融合[9][10][11][12][15] - 现代ViT架构采用旋转位置编码来编码二维空间信息,这比处理一维文本的RoPE更为复杂,赋予了模型强大的尺寸泛化能力[13][14] 大语言模型(LLM)的认知中枢 - 在多模态架构中,LLM作为“大脑”接收由视觉和文本特征拼接而成的统一序列,并基于此进行自回归生成以输出回答[17][20][21] - LLM的输入是一个融合了视觉与文本信息的长序列,例如196个视觉词元与5个文本词元拼接成201个词元的序列,使模型能在统一上下文中进行图文理解[21] - 模型生成答案时采用不同的解码策略,包括速度快的贪婪解码、平衡质量与成本的束搜索以及增加多样性的采样策略[26][27][29] - LLM自身架构也在进化,新一代模型如Qwen3-VL采用混合专家架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 连接器(Connector)的设计哲学 - 连接器负责弥合视觉与语言模态的语义鸿沟,将视觉特征投影到LLM能理解的向量空间[32][33] - 连接器设计主要分为两大流派:以LLaVA为代表的“极简线性投影”派,依赖强大LLM和后端融合;以BLIP-2的Q-Former为代表的“主动信息提炼”派,在信息进入LLM前进行压缩和提炼[34][36][37][38] - Q-Former通过一组可学习的查询向量,利用交叉注意力机制从冗长的原始视觉特征中提炼出高度浓缩的摘要信息,显著减轻了LLM的计算负担[40][42][44][45][51] 处理高分辨率信息的技术路线:LLaVA的AnyRes - LLaVA系列采用“扩展输入边界”的哲学,通过AnyRes技术在不改动核心模型的前提下处理高分辨率图像[55] - LLaVA-1.5-HD的策略是“全局+局部”协同:将高清图切分为多个高清晰度图块以保留局部细节,同时将原图降采样以获得全局上下文,最后将两路特征拼接输入LLM[56][58][59] - LLaVA-OneVision进一步提出高级AnyRes,通过双线性插值在特征空间“缝合”图块,更好地保留文档等场景的空间布局信息[60][62][68] 处理高分辨率信息的技术路线:Qwen3-VL的DeepStack - Qwen3-VL代表“内部架构改造”的哲学,通过DeepStack技术将视觉信息深度注入到LLM的处理流程中,实现多层次融合[64][66] - DeepStack-L将来自视觉编码器不同中间层的特征,动态注入到LLM的浅层,使不同抽象层级的视觉信息与语言处理阶段相匹配[66][69][97] - 实验表明,从LLM的浅层(如第0-4层)开始注入、间隔2-3层、总计注入约4层时效果最优[71][76] - Qwen3-VL的实现高效且优雅,直接从处理标准输入的同一视觉编码器的中间层提取特征进行注入,无需额外计算高分辨率图像[72][74][75][99] LLaVA系列架构演进分析 - LLaVA系列的核心哲学是“大道至简”,其初代版本就以“CLIP ViT + 线性投影层 + LLaMA”的极简架构开创了范式[80][81][83] - 从1.0到1.5的迭代务实而高效,包括将连接器升级为两层MLP、提升输入分辨率至336x336以及使用更大规模指令微调数据[84][88] - 该系列通过持续的数据优化和输入端工程创新(如AnyRes)推动性能提升,并最终在LLaVA-OneVision上实现了图像与视频的统一处理[92] Qwen3-VL架构演进分析 - Qwen3-VL代表“精巧设计,架构致胜”的路线,对模型内部进行深度改造以实现视觉与语言的持续深度交互[93][94] - 其核心是从传统的“入口拼接”范式转变为“多层注入”范式,通过DeepStack技术让视觉信息在LLM处理过程中多次参与[96][97] - 代码层面的演进清晰可见,Qwen3-VL相比前代引入了deepstack_merger_list模块,并将语言模型升级为混合专家架构[98][101] - 该模型集成了多项前沿技术,包括MRoPE-Interleave位置编码和文本时间戳对齐机制,以更好地处理视频时空信息[101][102] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但都极大推动了多模态性能边界,并共同指向视觉与文本更深层统一的方向[103][104] - 未来趋势包括:从感知向推理与执行演进,发展出能操作界面的视觉智能体能力;从静态图像向长视频和三维空间理解拓展;以及最终实现从预训练早期就开始的多模态真正统一[104][107]
端到端岗位求职:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-08 08:02
行业招聘与技能需求变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的方向集中在端到端、VLA(视觉语言动作模型)、世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入模型、场景、数据优化及规划兜底等方面的人力和资源 [2] - 市场面临人才技能与岗位需求不匹配的挑战,相关岗位技术栈广泛,但候选人往往只精通部分领域 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模与优化等,是实际落地中的关键痛点 [2] 课程核心内容与结构 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,内容从实战到落地层层展开 [2] - 课程涵盖核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验 [2] - 课程采用小班教学模式,仅剩20个招生名额 [2][4] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论基础,以及Python、PyTorch、mmdet3d框架等技能基础 [16] - 课程为离线视频教学,辅以VIP群答疑和三次线上答疑,开课时间为11月30日,预计三个月结课 [15][17] 技术发展趋势与课程章节详解 - **端到端任务概述**:在端到端时代,感知任务合并与规控算法学习化已成为绝对主流,如何高效合并感知任务及设计学习化规控模块是行业核心技能 [7] - **两段式端到端算法**:章节介绍两段式框架的建模方式、感知与规划控制的信息传递,分析其优缺点,并通过PLUTO算法进行实战讲解 [8] - **一段式端到端算法**:一段式框架可实现信息无损传递,性能上优于两段式方案,章节将学习基于VLA、扩散模型等多种方案,并以VAD系列进行深入教学 [9] - **导航信息的量产应用**:导航信息在自动驾驶中起引导、选路、选道作用,章节介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式 [10] - **自动驾驶中的强化学习算法**:纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,章节重点介绍强化学习算法及其训练策略 [11] - **端到端轨迹输出优化**:章节进行NN Planner项目实战,涵盖基于模仿学习的扩散模型与自回归算法,以及在监督微调后结合强化学习的实战 [12] - **兜底方案-时空联合规划**:为应对模型输出非100%准确,量产需轨迹平滑优化等后处理兜底逻辑,章节介绍多模态轨迹打分搜索及轨迹平滑算法 [13] - **端到端量产经验分享**:最终章节从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以提升系统能力边界 [14] 讲师背景 - 讲师王路拥有C9本科和QS50高校博士学位,已发表若干CCF-A和CCF-B论文 [4] - 现任国内顶级Tier1供应商算法专家,从事大模型、世界模型等前沿算法的预研与量产工作 [4] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [4]
已经有7所高校,在悄悄地设立具身专业了
自动驾驶之心· 2025-12-07 10:05
行业趋势:高校教育布局 - 国内多所顶尖高校正在积极申请增设“具身智能”本科专业,表明该前沿领域正受到高等教育体系的高度重视,旨在系统化培养专业人才 [1] - 根据教育部公示名单,共有8所“双一流”高校申请增设该专业,包括北京航空航天大学、北京理工大学、北京邮电大学、东北大学、上海交通大学、浙江大学、西安交通大学 [1][2] 专业设置详情 - **北京航空航天大学**:专业设置在机械工程与自动化学院,依托于2017年开设的机器人工程和2019年开设的人工智能专业建设经验,学制四年,属于交叉工程类,年度计划招生30人 [3][4] - **北京理工大学**:专业设置在人工智能学院,依托人工智能、机器人工程、自动化等学科建设经验,学制四年,年度计划招生120人 [6] - **北京邮电大学**:专业设置在人工智能学院,依托人工智能专业建设经验,年度计划招生30人 [8] - **浙江大学**:专业归属于控制科学与工程学院,依托机器人工程、人工智能等学科建设经验,年度计划招生30人 [11] 人才需求与就业导向 - **北京航空航天大学**:预计年度招生的30人中,有20人升学,10人就业;调研显示宇树科技、九号机器人、邀博机器人、智元机器人、度量科技、青瞳视觉等公司存在人才需求 [5] - **北京理工大学**:预计年度招生的120人中,有70人升学,50人就业;调研显示中国兵器工业集团、中国航天科技集团、北汽集团、华为、阿里巴巴、宇树科技、比亚迪、小米、顺丰、字节跳动、腾讯等公司存在人才需求 [7] - **北京邮电大学**:预计年度招生的30人中,升学与就业各15人;调研显示北京字节跳动、美团、阿里巴巴、中国航空集团、北京人形机器人创新中心、亿航智能、中国电信、华为、小鹏汽车、傅利叶智能等公司存在人才需求 [9][10] - **浙江大学**:预计年度招生的30人中,有20人升学,10人就业;调研显示杭州云深处科技、微分智飞、深圳元戎启行、逻腾科技、比亚迪、中车株洲所、浙江大学湖州研究院、杭州华为、中航西飞以及选调生项目存在人才需求 [12]
NeurIPS 2025|智源&清华带来自驾重建新SOTA!
自动驾驶之心· 2025-12-07 10:05
文章核心观点 - 北京智源人工智能研究院与清华大学智能产业研究院提出了一种创新的多尺度双边网格框架,旨在解决自动驾驶三维场景重建中因光照变化、视角差异和动态物体导致的光度不一致与几何不准确问题 [5] - 该方法统一了外观编码的全局调整能力和双边网格的像素级调整能力,通过从粗到细的三层网格架构,实现了对场景从全局光照到局部细节的逐级优化,显著提升了重建的几何精度与视觉质量 [11][13][15] - 在Waymo、NuScenes、Argoverse和PandaSet等多个主流自动驾驶数据集上的实验表明,该方法在多项关键指标上超越了现有技术,尤其在复杂动态和极端光照场景下表现出更强的鲁棒性 [5][19][27] - 该框架可作为即插即用模块集成到其他先进场景重建模型中,通用性强,能为其带来显著的性能提升 [25] - 该研究已被人工智能顶级会议NeurIPS 2025接收,标志着其在学术上获得了高度认可 [6] 主要方法 - 研究采用高斯溅射技术对驾驶场景进行建模,将场景分解为天空、静态背景和动态物体进行独立建模 [14] - 核心创新在于提出了一个三层次的多尺度双边网格架构,用于对初步渲染图像进行色彩校正 [15] - **粗层级**:使用小型网格捕捉并校正场景级别的全局光照和色调偏差 [15] - **中层级**:使用中等尺寸网格调整区域性光影变化,如大块阴影或光斑 [15] - **精细层级**:使用高分辨率网格进行像素级精细微调,恢复物体局部细节和材质 [15] - 采用了从粗到细的层次化光度优化策略,不同层级使用不同的学习率,并引入了两种正则化损失以确保学习效果 [16][17] - **循环正则化损失**:鼓励学到的色彩变换可逆,防止产生伪影 [16] - **自适应总变分正则化**:惩罚网格内部特征的剧烈变化,使颜色变换更平滑,减少噪声伪影 [17] - 通过一个结合了重建损失、几何损失及正则化项的复合损失函数来训练整个框架 [18] 实验结果 - **几何精度提升显著**:在Waymo数据集上,倒角距离从基准模型OmniRe的1.378降低至0.989,提升了28.2% [21]。在NuScenes数据集上,倒角距离从1.458降低至1.161 [21] - **外观一致性指标优异**:在NuScenes数据集上,峰值信噪比达到27.69,优于OmniRe的26.37;结构相似性指数达到0.847,优于OmniRe的0.837 [23] - **作为增强模块通用性强**:将核心模块集成到ChatSim和StreetGS模型中,能带来显著提升 [25] - ChatSim的重建峰值信噪比从25.10提升至27.04,几何误差从1.557降低至1.236 [26] - StreetGS的重建峰值信噪比从25.74提升至27.90,几何误差从1.604降低至1.272 [26] - **在极端场景下表现稳健**:在夜间、极端光照、反射、雨天等困难条件下,模型表现更加稳健,能更好地恢复物体细节并减少几何误差与色偏 [27][33] - **定性评估显示细节优势**:与基线方法相比,该方法在处理高光区域时能抑制过曝、还原纹理;能生成更清晰的动态物体边缘,减轻运动模糊;能生成更连贯完整的被遮挡物体几何结构;在低光照场景下能更好地提亮暗部细节并避免噪点 [35]
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 10:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]