Workflow
自动驾驶之心
icon
搜索文档
小米智驾正在迎头赶上......
自动驾驶之心· 2025-11-03 08:04
小米汽车技术进展概述 - 小米汽车自2021年9月成立至2025年6月YU7发布,四年内在新能源领域快速发展[2] - 2025年下半年行业竞争焦点集中在智能驾驶、性价比及座舱体验,小米智驾正迎头赶上,新版本即将发布[2] - 2025年小米汽车团队在学术研究上成果显著,论文工作涉及VLA、世界模型、端到端等多个前沿方向,包括ORION、WorldSplat、EvaDrive、Dream4Drive等,探索生成模型在自动驾驶中的落地应用[2] 视觉语言行动模型与端到端驾驶 - **AdaThinkDrive**:引入"快速应答/慢速思考"双模式推理机制,在NAVSIM基准测试中PDMS达90.3,超越最佳纯视觉基线1.7分,在96%复杂场景使用CoT,84%简单场景直接输出轨迹,推理效率提升14%[6] - **EvaDrive**:采用进化对抗策略优化框架,实现轨迹生成与评估的闭环共进化,在NAVSIM v1上PDMS达94.9,Bench2Drive驾驶分数64.96,超越DiffusionDrive等方法[9] - **MTRDrive**:通过记忆-工具协同推理框架提升决策鲁棒性,在NAVSIM和Roadwork-VLM基准上表现出色,有效缓解幻觉问题[14] - **ReCogDrive**:融合VLM认知推理与强化学习增强的扩散规划器,在NAVSIM基准PDMS达90.8,推理速度较纯文本VLM方法提升7.8倍[18] - **ORION**:通过视觉语言模型指导动作生成,在Bench2Drive数据集驾驶分数77.74,成功率54.62%,较之前最优方法提升14.28分和19.61%[23] - **AgentThink**:将动态工具调用与思维链推理结合,在DriveLMM-o1基准整体推理分数提升53.91%,答案准确率提升33.54%[22] 世界模型与场景生成 - **Dream4Drive**:首创3D感知引导的合成数据生成框架,仅插入420个样本(不足真实数据2%)即可提升感知任务性能,在1×训练轮数下mAP从34.5提升至36.1,NDS从46.9提升至47.8[26] - **WorldSplat**:采用高斯中心化前馈式4D场景生成框架,在nuScenes数据集取得最优FVD与FID指标,支持多视角驾驶视频生成[31] - **ViSE**:通过视觉街景外推框架在ICCV 2025 RealADSim-NVS挑战赛综合得分0.441,PSNR达18.228,SSIM 0.514,LPIPS降至0.288[30] - **ExtraGS**:融合几何先验与生成先验,在Waymo数据集NTA-IoU达0.592,NTL-IoU达58.49,nuScenes外推FID@3m降至77.19[35] - **Genesis**:实现多视角视频与LiDAR点云序列联合生成,在nuScenes基准视频生成FVD 16.95、FID 4.24,LiDAR生成Chamfer距离0.611[41] - **Uni-Gaussians**:统一高斯表示方法结合光栅化与光线追踪,在Waymo数据集实现相机与LiDAR数据高效仿真[42] - **CoGen**:通过3D语义条件生成框架提升视频生成3D一致性,在nuScenes数据集FVD指标最优[44] - **MiLA**:实现长达一分钟多视角高保真视频生成,在nuScenes数据集FID与FVD指标达到最先进水平[48] 运动风险预测与感知增强 - **DriveMRP**:基于BEV运动仿真方法合成高风险运动数据,零样本评估准确率从基线29.42%大幅提升至68.50%,增强VLM在长尾场景的风险预测能力[13][15] 深度估计技术 - **Pixel-Perfect Depth**:采用像素空间扩散生成模型,在NYUv2、KITTI等基准AbsRel最低达4.1%,δ1准确率最高97.7%,边缘感知点云Chamfer距离仅0.08[51]
理想DrivingScene:仅凭两帧图像即可实时重建动态驾驶场景
自动驾驶之心· 2025-11-02 00:04
研究背景与挑战 - 自动驾驶系统的安全性和可靠性高度依赖4D动态场景重建(3D空间+时间维度)[1] - 行业面临传感器成本与效率的平衡挑战:传统多模态方案(如LiDAR、RaDAR)精度高但成本昂贵,纯视觉方案成本优势明显但需解决稀疏视角和动态物体带来的重建难题[3] - 现有渲染技术存在局限:神经渲染方法(如NeRF、3DGS)在静态场景重建中表现出色但受限于逐场景离线优化范式,无法满足实时性需求;动态场景方案(如EmerNeRF)同样存在离线问题,端到端动态建模方法(如Driv3R)则因未解耦静态与动态成分而导致计算负担重和重建细节丢失[3] 核心创新点 - 采用静到动两阶段训练范式:先从大规模数据中学习鲁棒的静态场景先验,冻结静态网络后再训练动态模块,彻底解决端到端训练的不稳定性并降低动态建模复杂度[4] - 设计混合共享架构的残差流网络:采用共享深度编码器+单相机解码器结构,共享编码器学习通用运动先验,轻量化单相机解码器适配不同相机参数,仅预测动态物体的非刚性运动残差[4] - 构建纯视觉在线前馈框架:仅输入两帧连续环视图像即可实时输出3D高斯点云、深度图、场景流等多任务结果,无需离线优化或多模态传感器[4] 技术方案与框架 - 静态场景几何与外观建模以3D高斯溅射(3DGS)为核心,每个高斯基元定义为位置、形状、不透明度和外观参数,通过两个前馈网络直接预测高斯参数[5][9] - 动态建模基于残差场景流,将总运动场分解为刚性运动(由自车运动引发)和非刚性残差运动(由动态物体引发),通过残差流网络预测[6][10] - 采用两阶段训练策略:阶段1仅训练深度网络与高斯参数网络,阶段2冻结静态网络仅训练残差流网络,分别使用不同的损失函数确保视觉保真度和运动渲染一致性[11][12][15] 实验验证与性能 - 在新视角合成任务中,该方法PSNR达28.76,较Driv3R(26.10)提升2.66dB,较DrivingForward(26.06)提升2.7dB;SSIM达0.895,显著高于对比方案[13][20] - 在深度预测任务中,几何准确性优于Driv3R:Abs Rel为0.227 vs 0.234,Sq Rel为2.195 vs 2.279,RMSE为7.254 vs 7.298[17][21] - 效率方面实现推理速度0.21秒/帧(6路环视图像),比DrivingForward(0.34秒)快38%,比Driv3R(0.71秒)快70%;模型参数仅0.117GB,为Driv3R(2.512GB)的4.6%[18] 消融实验与定性分析 - 去除残差流网络后模型退化为静态版,PSNR从28.76降至26.40,SSIM从0.895降至0.780,证明动态建模对真实场景重建的关键作用[19][25] - 替换两阶段训练为端到端训练后,模型渲染质量大幅退化,PSNR降至13.69,SSIM降至0.334,凸显静态先验的基础价值[19][25] - 在动态物体重建方面,该方法可生成边缘清晰、时序一致的结果,而DrivingForward因静态假设会产生明显重影,Driv3R虽能捕捉动态但细节模糊[19]
造车新势力十月销量公布,几家欢喜几家愁......
自动驾驶之心· 2025-11-02 00:04
造车新势力10月交付表现 - 零跑汽车10月全系交付达70,289台,同比增长超84% [2][3] - 小鹏汽车10月交付新车42,013台,单月交付量创历史新高,并连续2个月超过4万台 [2][7] - 理想汽车10月交付新车31,767台,历史累计交付量达1,462,788辆 [2][10][11] - 极氪科技10月销量达61,636台,同比增长9.8%,环比增长20.5%,单月销量首次突破6万台 [2][3] - 小米汽车10月交付新车超过40,000台 [2][5] - 智界汽车10月交付突破10,000台,岚图汽车交付17,218台,北汽新能源销量30,542台(同比增长112%,环比增长48.7%),智己汽车销售13,159台 [3] 行业整体趋势与动态 - 多家公司交付量持续刷新高,零跑再次刷新记录,极氪首次突破六万台 [2] - 理想汽车处于纯电转型阵痛期,可能因L系列订单不佳及i6/i8产能不足导致 [2]
手持激光雷达实时重建点云!超高性价比3D扫描仪
自动驾驶之心· 2025-11-02 00:04
产品核心定位 - 产品定位为国内最强性价比的实景三维激光扫描仪,面向工业场景和教研场景 [2] - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [2] - 旨在降低开发门槛,助力开发者快速掌握研发能力 [2] 核心技术参数 - 扫描性能达到每秒20万点级点云成图,测量距离为70米,支持360°全域覆盖 [2] - 支持扫描面积超过20万平方米的大场景,并可选配3D高斯数据采集模块以实现高保真实景还原 [2] - 系统相对精度优于3厘米,绝对精度优于5厘米 [23] - 采用微秒级同步技术,实现多传感器(激光雷达、相机、IMU、RTK)数据高精度同步 [35][36] - 搭载Intel N5095计算单元,4核2.0GHz处理器,配备16G内存和256G存储 [23] 产品设计与易用性 - 设备采用轻量化设计,重量为1.3kg(不含电池),尺寸为14.2cm * 9.5cm * 45cm [23] - 操作简单直观,具备一键启动功能,扫描结果导出即用,无需复杂部署 [7] - 激光雷达采用25°倾斜角度安装,兼顾多个方位,无需反复采集 [16] - 配备5.5寸触控屏,支持高带宽网口及双USB 3.0接口,提供灵活扩展能力 [13][23] 应用场景与兼容性 - 可广泛应用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景 [39][47] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [45] - 在地理信息数据采集、城市规划、文物修复研究等领域提供精准基础设施 [53] 版本与定价策略 - 提供基础版本、深度相机版本、3DGS在线版本、3DGS离线版本四种配置 [58] - 产品首发价格从19800元起,深度相机版本23800元,3DGS在线版本39800元 [10][58] - 购买后可提供为期1年的售后服务 [60]
将3DGS嵌入Diffusion - 高速高分辨3D生成框架(ICCV'25)
自动驾驶之心· 2025-11-02 00:04
核心技术:DiffusionGS 算法框架 - 提出一种名为 DiffusionGS 的全新单阶段 3D 生成框架,将 3D Gaussian Splatting 嵌入到 pixel-level 的 Diffusion 模型中,以保持生成结果的 3D 视角一致性 [2] - 该框架在 Diffusion 的每一个时间步都预测一个 3D Gaussian 点云,能够同时用于物体中心化生成和大尺度场景级生成 [2] - 模型在 256x256 和 512x512 分辨率下的生成速度分别为 6 秒和 24 秒,比 Hunyuan-v2.5 快 7.5 倍,参数量仅为 1 个多 G,训练需 16-32 张 A100 显卡 [16] 技术优势与创新点 - 设计了场景-物体混合训练策略,能够将来自不同数据集的物体和场景数据放在一起训练,学习更泛化的三维先验 [32] - 提出新的相机位姿控制条件方法 Reference-Point Plucker Coordinate,通过引入参考点信息增强模型的空间感知能力 [32][37] - 方法在单视角场景重建时无需借助单目深度估计器,本身具备深度感知能力 [32] 性能表现与实验结果 - 在物体级生成任务上,比当前最优方法在 PSNR 指标上高 2.20 dB,FID 分数优 23.25 [32] - 定量实验显示,该方法在不借助 2D 图像扩散先验和单目深度估计器的情况下,达到了更好的测试指标和更快的生成速度 [40] - 视觉对比结果表明,该方法生成的新视角图像更清晰,三维一致性更好,伪影和模糊更少 [44] 应用前景与开源情况 - 该技术可应用于 AR/VR、电影制作、机器人、动画、游戏等领域 [20] - 目前训练、测试、评估代码已经开源,并集成了一行 pipeline 直接运行的代码,未来将包括高斯点云转 mesh 功能 [5][7] - 项目提供了代码、模型、论文链接及项目主页,包含视频和点云交互式渲染结果 [7][8]
理想宣布召回24款11411辆MEGA:免费更换电池,但事故电池爆燃并非电芯问题
自动驾驶之心· 2025-11-01 00:03
理想MEGA召回事件核心信息 - 理想汽车宣布召回11411辆2024款MEGA车型 [4][5][7] - 召回原因为车辆冷却液防腐性能不足 特定条件下可能导致冷却回路中的动力电池和前电机控制器冷却铝板腐蚀渗漏 [9][15] - 此问题极端情况下可能造成动力电池热失控 存在安全隐患 [9][15] - 公司将为召回范围内的车辆免费更换冷却液、动力电池和前电机控制器 [9] 召回具体细节 - 召回涉及车辆的生产日期为2024年2月18日至2024年12月27日 [7] - 2024年12月28日后生产的理想MEGA以及理想汽车其他车型不存在此风险 [11] - 此次召回也是对2024年10月23日晚发生于上海的MEGA起火事故的调查结果与回应 [6][12][13] - 公司确认事故电池爆燃并非电芯问题 [16] 应急处置与用户沟通 - 公司云端预警程序会针对冷却液渗漏导致的动力电池安全隐患进行提前预警 并通过400客服、车机Ecall联系用户安排救援 [9] - 当车辆出现故障时 会通过车机故障灯、文字及报警音提醒用户靠边停车等待救援 [9] - 公司告知用户 若车辆未收到预警和车机故障信息 说明当前车辆状态正常可放心用车 接到邀约后应尽快进店更换 [10]
自动驾驶之心平台双十一活动开始了:课程八折、星球七折
自动驾驶之心· 2025-11-01 00:03
课程产品促销活动 - 活动时间为11月1日至11月11日 [5] - 自动驾驶系列课程提供单门八折或三门七折优惠 [4][5] - 推出超级课程折扣卡 售价299元 购买后可享一年内课程七折优惠 [4][5][7] - 规控与轨迹预测小班课不参与以上折扣活动 [4] 知识星球服务 - 知识星球提供七折优惠 新人加入享受此优惠 续费可享五折 [4][9] - 星球定位为最前沿的自动驾驶技术社区 提供近40多个学习路线 [12] - 社区内容涵盖VLA 世界模型 闭环仿真 扩散模型 BEV感知等前沿技术方向 [12] - 提供与学术界和工业界大佬的面对面交流机会 讨论行业前沿话题 [12] 其他产品与服务 - 提供论文辅导服务 活动期间最高可抵扣10000元 [4] - 自研硬件产品黑武士001在活动期间有限时优惠 [4] - 星球内包含七门精品课程 内容涵盖世界模型 轨迹预测 大模型等 [12]
摇人!寻找散落在各地的自动驾驶热爱者(产品经理/4D标注等)
自动驾驶之心· 2025-11-01 00:03
业务拓展与合作方向 - 公司正面向全球自动驾驶从业者发出合作邀请,旨在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [2] - 合作将提供高额酬金与丰富的行业资源 [3] - 主要合作方向包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个前沿技术领域 [4] 岗位与服务对象 - 合作岗位主要面向自动驾驶培训合作、课程开发和原创文章创作 [5] - 企业培训业务主要面向B端客户,包括企业和高校、研究院所 [5] - 个人培训业务主要面向C端客户,包括大量学生和求职人群 [5]
Feed-Forward 3D综述:3D视觉进入“一步到位”时代
自动驾驶之心· 2025-11-01 00:03
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间快速前馈3D重建与视图合成领域的技术进展 [6] - 该领域正经历从传统的、依赖每个场景反复优化的范式,向基于AI的、具备泛化能力的快速前馈范式转变 [2] - 论文首次建立了完整的快速前馈3D方法谱系与时间线,并划分了五类主流架构 [6][8] 技术架构分类与演进 - **基于NeRF的模型**:从PixelNeRF开始,探索“条件式NeRF”,发展出1D、2D和3D特征方法三大技术分支 [8] - **点图模型**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,无需相机姿态输入 [10] - **3D高斯泼溅模型**:将场景表示为高斯点云,通过神经预测器直接输出高斯参数,分为基于图像和基于体积的表示方法 [11][13] - **网格/占用/SDF模型**:结合Transformer与Diffusion模型进行传统几何建模 [14] - **无3D表示模型**:直接学习从多视图到新视角的映射,不再依赖显式三维表示 [14] 多样化任务与应用场景 - 应用覆盖无姿态重建与视图合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿方向 [19] - 这些技术使得“从单张图像生成整个场景”成为可能,极大地拓展了3D技术的应用边界 [15] 基准数据集与评测体系 - 论文收录了超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模庞大,例如Objaverse-XL包含10.2M个对象,MVImgNet包含219,188个对象 [20][21] - 总结了PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)等标准指标体系,为模型比较提供统一基线 [20] 量化性能对比 - 在相机姿态估计任务上,TT方法在Sintel数据集上的绝对轨迹误差低至0.074,在RealEstate10K数据集上的RRA@30指标达到99.99% [22] - 在点图重建任务上,VGGT方法在7-Scenes数据集上的精度均值为0.087,法向一致性中位数达到0.890 [23] - 在视频深度估计任务上,PE-Fields方法在Tanks-and-Temples数据集上的PSNR达到22.12,SSIM达到0.732,LPIPS低至0.174 [24] 未来挑战与发展趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [25][26] - 未来趋势将聚焦于Diffusion Transformers与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及同时具备生成和重建能力的模型开发 [26]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-10-31 08:06
技术发展趋势 - 视觉语言模型和世界模型正逐渐走向融合统一,VLA+WM结合是通往更强通用具身智能的答案[3][4] - 学术界对VLA和WM融合已进行多项探索,典型工作包括VLA-RFT、WorldVLA、Unified Vision-Language-Action Model和DriveVLA-W0[4] - 未来L4训练链路需要视觉语言模型、强化学习和世界模型三者结合,缺一不可[5] 行业技术路线 - 业内关于视觉语言模型和世界模型的争论更多是宣传口径不同,大的技术路线上多有参考[7] - 特斯拉在ICCV上的分享对国内行业具有参考意义,未来VLA+WA结合形式尚未定论,值得持续探索[7] - 行业技术发展呈现多元化趋势,涵盖端到端自动驾驶、多模态大模型、世界模型等多个前沿方向[12] 自动驾驶技术社区 - 自动驾驶之心知识星球已发展成为超过4000人的综合类自驾社区,集视频、图文、学习路线、问答、求职交流为一体[10] - 社区联合学术界和工业界大佬共同打造,目标未来2年内做到近万人规模[10] - 社区成员来自国内外知名高校和头部公司,包括上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等企业[23] 技术资源覆盖 - 社区梳理近40+技术路线,涵盖感知、规划控制、仿真、端到端等多个方向[12][24] - 资源包括近40+开源项目、近60+自动驾驶数据集及行业主流仿真平台[24] - 技术内容覆盖BEV感知、3D目标检测、多传感器融合、Occupancy网络等核心领域[24][58][59][61][65] 行业交流平台 - 社区不定期邀请一线学术界和工业界大佬畅聊技术趋势,已举办超过100场专业技术直播[95] - 建立与多家自动驾驶公司的内推机制,提供岗位内推服务[19] - 平台提供学术界和工业界研究热点梳理,包括端到端自动驾驶、3DGS与NeRF、世界模型等前沿领域[44][46][49]