Workflow
自动驾驶之心
icon
搜索文档
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
什么样的技术才能成就一家顶流自动驾驶公司?
自动驾驶之心· 2025-09-24 07:32
文章核心观点 - 自动驾驶技术自1989年实验室探索起步 历经36年发展 已从基于规则的模块化设计演进至端到端大模型驱动 逐步走向大众市场[2] - 行业技术路线呈现共性趋势:从依赖高精地图和多传感器融合 转向无图化纯视觉方案 最终迈向端到端架构和世界模型 核心突破体现在BEV鸟瞰视角感知 占用网络障碍物识别和大模型决策规划[6][17][23] - 主流厂商通过数据驱动飞轮循环 实现算法迭代和场景泛化 特斯拉纯视觉方案构建数据壁垒 华为ADS版本迭代提升感知距离35% 时延降低65% Momenta依托10亿公里训练数据推进L3落地[6][28][31][33] - 硬件成本持续下探 卓驭科技纯视觉方案硬件成本降至5000-7000元人民币 地平线征程6系列芯片算力达560TOPS 支持10-20万元主流市场[54][56][50] - 2025年成为技术分水岭 理想VLA司机大模型具备因果推理 蔚来世界模型NWM支持0.1秒216种轨迹推演 行业从L2普及(渗透率65%-70%)迈向L3落地前夜[61][110][112] 特斯拉技术发展 - 采用纯视觉感知方案 摒弃激光雷达和高精地图 通过庞大车队构建数据壁垒[6] - 2021年AI Day推出BEV技术:通过Transformer将2D图像转换到3D鸟瞰图空间 实现多摄像头感知融合[8][9] - 2022年AI Day推出占用网络:将空间划分为体素 预测占用状态而非物体类别 可识别异形障碍物但计算量巨大[12][16] - 2024年3月FSD V12实现端到端模型:统一深度学习模型直接输出控制指令 驾驶行为更拟人化但可解释性差[17][18][19] 华为ADS技术演进 - ADS 1.0(2021年4月):依赖3颗激光雷达和13个摄像头 结合高精地图实现高速NCA和自动泊车 硬件成本高[25] - ADS 2.0(2023年4月):实现无图智驾 激光雷达减至1颗 平均人工接管里程从100公里提升至200公里 GOD网络识别异形障碍物[27] - ADS 3.0(2024年4月):端到端大模型融合感知与规划 探测距离提升35% 时延降低65% 搭载192线激光雷达和4D毫米波雷达[28][29] - ADS 4.0(2025年4月):支持高速L3级自动驾驶 依托45EFLOPS云端算力和10亿公里训练数据迭代算法[30][31] Momenta技术路径 - 采用"一个飞轮两条腿"战略:数据驱动算法形成闭环 左腿量产自动驾驶(Mpilot)提供数据流 右腿完全无人驾驶(MSD)反馈技术流[33] - 2019年AD 1.0:视觉建图精度10cm 支持众包更新但功能限于泊车场景[35] - 2022年AD 2.0:规则驱动规划 依赖高精地图 拓展性差[36][37] - 2023年AD 3.0-4.0:向数据驱动转型 感知任务整合至单一模型 但保留感知规划分离pipeline[38][41][42] - 2024年AD 5.0:端到端大模型整合感知与规划 模仿人类长期记忆 延迟降低但系统复杂[43] - 2025年R6飞轮大模型:基于强化学习和7000万黄金数据自我进化 驾驶能力超人类但可靠性待验证[44] 地平线技术路线 - 软硬协同渐进路线:从车规芯片切入 通过征程系列芯片迭代支撑功能升级[47][49] - 征程2/3芯片(2021年):支持L2辅助驾驶 800万像素前视摄像头[49] - 征程5芯片(2022-2023年):支持L2+高速NOA和城区领航辅助 应对交通信号灯识别[50] - 征程6系列芯片(2025年):算力达560TOPS 支持10-20万元市场规模化落地 并拓展至机器人领域[50] 卓驭科技低成本方案 - 成行平台基础版(2023年):7摄像头+32TOPS算力 硬件成本5000元人民币 实现高速NOA和记忆泊车[54] - 成行平台升级版:纯视觉无图城区智驾 硬件成本7000元人民币 支持15万元级别车型[56] - 成行平台高配版(2024年):10摄像头+100TOPS算力 增800万像素长焦单目 提升侧向感知[57] - 舱驾融合传感器(2025年):惯导三目集成激光雷达 成本降30%-40% 下放至30万元内车型[59] 理想汽车三段演进 - 规则驱动(2021年前):if-else规则分解驾驶任务 可解释性强但泛化能力差[63][64][66] - 端到端模型(2023年):模仿学习直接输出控制指令 行为拟人但缺乏因果推理[65][67][71] - VLA司机大模型(2025年):统一建模视觉-语言-行动 具备逻辑推理能力 训练成本极高[61][73][74][75] 小鹏全场景进化 - XPILOT 2.0/2.5(2018-2019年):20传感器实现自动泊车和遥控泊车 解决特定场景需求[81][82][83] - XPILOT 3.0(2020年):P7搭载高速NGP 实现全自研360度感知[84][85] - XPILOT 3.5(2021年):P5首搭激光雷达 城市NGP限5城开放[87][88][89] - XNGP(2022年):AI大模型驱动 算力508TOPS 降低高精地图依赖[90][91][92] - 2024年无图方案覆盖243城 端到端大模型上车 2025年推进全球XNGP研发[93][94] 蔚来稳健推进 - 早期合作Mobileye(2016年):利用成熟方案但迭代受限[101][102][103] - NOP+高速领航(2020-2024年):全栈自研后安全性达人驾6.26倍 但城区功能推送较晚[104][105] - 2024年4月全域NOP+订阅制推送:无图技术覆盖726城 群体智能架构优化系统[107][108][109] - 世界模型NWM(2025年5月):支持0.1秒216种轨迹推演 认知能力增强但长期稳定性待观察[110][111][112]
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-24 07:32
3D高斯泼溅技术及gsplat库 - 3D高斯泼溅是一种新兴的3D场景表示与渲染技术,与传统的深度学习模型和框架有显著区别,它更侧重于计算机图形学领域,涉及坐标系转换和激光雷达点云等技术[4] - 在自动驾驶和计算机视觉领域,3D高斯泼溅技术正被探索与感知系统及端到端模型进行结合,但其与大语言模型和自然语言处理领域基本没有关联[4] - 对于希望入门该领域的研究者,开源库gsplat被推荐为比官方Gaussian-splatting库更优的选择,因其文档和维护相对更好[5] gsplat库的技术特性与优化 - gsplat库对原始的3D高斯泼溅官方实现进行了多项优化,提供了更完善的工具链[5] - 该库支持超广角镜头畸变和卷帘快门相机模型,这使其更适用于如自动驾驶等复杂真实场景[12] - 库内提供了高效的高斯球参数压缩功能,能够将1M个高斯球的参数量从236MB压缩至16.5MB,仅造成0.5dB的峰值信噪比损失[13] - 压缩技术结合了量化、排序、K-means聚类以及PNG图像编码等多种方法[14] 3D高斯泼溅的核心算法流程 - 3D高斯泼溅使用位置、协方差矩阵、颜色和不透明度等参数来定义每个高斯球,其中协方差矩阵可通过缩放矩阵和由四元数表示的旋转矩阵分解得到[21] - 训练过程包含自适应密度控制,高斯球的数量会动态变化,通过复制、分裂和修剪等策略进行更新[23] - 复制操作的触发条件是图像平面梯度高且高斯球尺度小,适用于需要保留细节的区域[28] - 分裂操作的触发条件是图像平面梯度高且高斯球尺度大,适用于用多个小高斯拟合复杂几何结构[28] - 修剪操作的触发条件是高斯球的不透明度较低,定期重置策略则用于防止不透明度过早收敛[28] gsplat库的渲染与训练实现 - 渲染管线核心步骤包括:将3D高斯投影至2D图像平面、计算球谐函数着色、进行瓦片相交检测,最终光栅化到像素[42][45][46][53] - 训练循环包含数据准备、前向渲染、损失计算、反向传播、优化器更新以及策略后处理(执行高斯球的分裂与修剪)等标准步骤[33][35][37] - 支持多GPU分布式训练,采用类似模型并行的方式将高斯球参数切分到不同GPU,并在渲染前通过All-to-All通信交换数据,实现计算负载的并行化[65][66][71] 行业影响与未来展望 - 以OpenAI的Sora为代表的视频生成模型若持续发展,可能对未来计算机图形学领域产生深远影响,甚至成为该学科的基础技术之一[6][7] - 从业者期待“世界模型”类技术能在视频生成和场景重建等领域得到更广泛应用,即使其效果仅达到大语言模型影响力的四分之一,也将为算法和基础设施领域的从业者带来新的机会[9]
专攻长尾场景!同济CoReVLA:双阶段端到端新框架
自动驾驶之心· 2025-09-24 07:32
自动驾驶技术在 长尾场景(低频率、高风险的安全关键场景) 中表现仍存在显著短板——这类场景虽不常见,却占自动驾驶事故的很大比例,且会导致驾驶员 接管率急剧上升。 传统模块化自动驾驶系统(感知-预测-规划分阶段)存在"误差累积"问题:各阶段的微小误差会逐步放大,导致整体性能难以提升;而端到端方法直接将传感器 输入映射为控制动作或者自车的轨迹,具备更强的适应性和统一优化能力,被认为是解决长尾场景问题的潜在方向。 而当前端到端方法主要分为两类,但均无法很好应对长尾场景: CoReVLA 核心设计:"Collect-and-Refine"双阶段框架 为解决上述问题,CoReVLA提出 持续学习的双阶段框架 ,通过"数据收集(Collect)"与"行为优化(Refine)"循环,提升长尾场景下的决策能力。整体流程如 figure 1所示,分为预阶段(SFT)、第一阶段(接管数据收集)、第二阶段(DPO优化)三部分。 预阶段:基于QA数据的监督微调(SFT) 此阶段的目标是让VLA模型建立自动驾驶领域的基础认知,为后续长尾场景学习铺垫。 $${\mathcal{L}}_{S F T}=-\sum_{i=1}^{N}\su ...
世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题...
自动驾驶之心· 2025-09-23 19:37
自动驾驶技术路线分析 - 2025年自动驾驶行业分裂为两大阵营:小鹏、理想、元戎启行押注VLA路线,而华为、蔚来则力推世界行为模型路线[1] - 世界行为模型被视为能真正实现自动驾驶的终极方案,但其本质被认为是套壳的数据依赖论[1] - VLA路线依赖海量数据训练得到的VLM进一步扩展Action能力,工业界具备海量数据的优势为模型研发提供无限可能[1] 技术路线核心逻辑 - VLA与世界模型两条路线都建立在数据决定上限的底层逻辑上[2] - VLA依赖真实场景的多模态数据训练Reasoning能力,世界模型则需要真实数据打底加仿真数据扩量的双重buff[2] - 世界模型的泛化能力本质是对数据多样性的迁移,行业误区在于混淆数据形式与数据本质[2] - 在真正人工智能到来前,数据永远是自动驾驶的核心竞争力[2] 技术挑战与场景应用 - 在普通场景达到99.9%能力后,长尾场景成为决定技术高下和生死的关键所在[1] - 生成式方法理论上可无限扩展corner case,但生成前提需用海量真实数据训练物理规则认知框架[1] - 仿真数据/生成数据并不能完全替代真实数据,真正的答案可能既不是VLA也不是世界模型[1] 行业社区生态 - 自动驾驶之心知识星球已成为超过4000人的综合类自驾社区,目标未来2年内达到近万人规模[4][18] - 社区成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等国内外知名高校和头部公司[10] - 社区汇总近40+开源项目、近60+自动驾驶相关数据集及行业主流仿真平台,覆盖感知、规划控制、端到端等全技术栈[11]
一汽正式收购大疆卓驭!落下智能驾驶功课的车企们,正在加速补作业...
自动驾驶之心· 2025-09-23 11:44
公司收购与股权变更 - 一汽正式成为大疆卓驭第一大股东 国家市场监管总局于9月22日对股权收购案进行公示 [1] 公司发展历程与业务布局 - 卓驭前身为大疆车载事业部 2016年建立 2023年拆分独立运营 2024年启用"卓驭"品牌 [3] - 公司累计融资超25亿元 投资方包括比亚迪、上汽、国投招商、基石资本、光远资本等 [3] - 以低算力高性价比方案起家 近年拓展至中高端算力平台 推出激光雷达方案及舱驾一体技术 [3] - 上海车展展示补盲激光雷达知周、激目2.0等硬件产品 以及基于NVIDIA DRIVE Thor平台的VLA大模型和高通SA8775P平台舱驾一体方案 [3] 市场前景与战略合作 - 预计2025年将有200万台车型搭载大疆车载智驾系统 3-5年内合作量产车型达500万台量级 [5] - 一汽通过收购获取卓驭智驾技术优势 提升产品竞争力 加速智驾升级和智能化转型 [5] - 一汽入股被视为对卓驭技术路线的肯定 [6] 行业地位与发展路径 - 卓驭发展历程覆盖自动驾驶黄金十年 [7] - 作为大疆孵化企业 通过引入一汽作为股东 走出区别于华为的差异化发展路径 [8] - 标志自动驾驶行业新格局开启 [9]
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心· 2025-09-23 07:34
三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}_{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑_{i∈N}c_iα'_i∏_{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
急需一台性价比高的3D激光扫描仪!
自动驾驶之心· 2025-09-23 07:34
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的、国内目前最强性价比的实景三维激光扫描仪 [1] - 核心价值在于轻量化设计、一键启动、高效实用的三维解决方案,旨在降低开发门槛,助力开发者快速掌握研发能力 [1][5] - 产品由同济大学刘春教授团队和西北工业大学产业化团队携手合作,基于多年科研和行业积累,并经过上百个项目验证 [8][9] - 首发价格为19800元起,被强调为业内最优惠价格,具备高度集成多传感器的特点 [5][9][57] 核心技术规格与性能参数 - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构,相对精度优于3cm,绝对精度优于5cm [1][22] - 扫描性能达到每秒20万点云成图,测量距离为70米,支持360°水平视角全域覆盖,扫描面积可达20万平方米以上 [1][22][29][30] - 搭载微秒级同步模组,实现多传感器(激光雷达、相机、IMU、RTK)的硬件IO同步触发,同步精度达微秒级 [22][23][34][35] - 系统运行于Ubuntu 20.04环境,支持ROS,配备Intel N5095四核2.0GHz(睿频2.9GHz)处理器、16GB内存及256GB存储 [22] 产品设计与硬件配置 - 采用小巧机身一体集成设计,尺寸为14.2cm * 9.5cm * 45cm,重量为1.3kg(不含电池)或1.9kg(含电池) [12][22] - 集成丰富传感器资源,包括3D激光雷达(Livox Mid-360)、9自由度IMU、双广角相机、深度相机(Intel D435i)、RTK模块(T-RTK UM982 Mobile) [13][22][23] - 激光雷达采用25°倾斜角度安装的小倾角设计,兼顾多个方位,提升采集效率 [15][16] - 配备高带宽网口、双USB 3.0接口、Micro SD卡槽,支持灵活扩展,并可通过快拆充电手柄供电,电池容量为88.8Wh,续航时间约3-4小时 [1][12][22][25][26] 软件功能与数据处理能力 - 支持三维点云地图动态构建、色彩融合及实时预览,可生成彩色点云数据,导出格式包括pcd, las, plv等多种通用格式 [22][27] - 软件功能包括快速建图、彩色点云建图、数据录制(保存为.bag或.pcd文件)、RTK功能启动以及3D高斯数据采集与保存 [42][43] - 提供3D高斯渲染版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [6][7][50] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [44] 应用场景 - 可广泛用于多种作业领域,尤其擅长应对复杂室内外场景,如写字楼、停车场、工业园区、各类隧道、森林、矿场等 [38][46] - 具体应用场景展示包括大型园区、花园场景、老旧街道、环形花园、坡道场景、市政道路、日常街道、长廊隧道等 [39][47][48][49] - 在地理信息数据采集、城市规划、文昌监测、文物保护修复研究、虚拟化等领域提供精准基础信息 [52][54] 产品版本与定价策略 - 提供四个版本以满足不同需求:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元)、3DGS离线版(67800元) [57][58] - 3DGS在线版包含两个月云服务赠送,后续云服务续费为5000元/月;3DGS离线版需客户自备高性能服务器或由公司另行提供 [58] - 购买后提供为期1年的售后服务 [60]
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-23 07:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]
FlowDrive:一个具备软硬约束的可解释端到端框架(上交&博世)
自动驾驶之心· 2025-09-23 07:34
核心观点 - 提出FlowDrive自动驾驶框架 在BEV空间中引入基于能量的流场表示 显式编码风险势场与车道吸引力场 实现安全可解释的轨迹规划[2][7] - 采用任务解耦设计 分离运动意图预测与轨迹生成过程 减少梯度冲突与特征干扰[6][9] - 在NAVSIM v2基准测试中EPDMS评分达86.3 超越现有SOTA方法0.3分 在安全性与规划质量方面表现最优[3][40] 技术架构创新 - 风险势场通过高斯函数建模障碍物排斥力 计算公式为$$U_{risk}(u,v)=\sum_{i}\eta\exp\Biggl{(}-\frac{\left\|(u,v)-(u_{i},v_{i})\right\|^{2}}{2\sigma^{2}}\Biggr{)}$$[20] - 车道吸引力场结合横向距离与纵向弧长 计算公式为$$U_{lane}(u,v)=\frac{1}{2}k_{lat}d(u,v)^{2}+k_{lon}(L-s(u,v))$$[20] - 流感知锚定轨迹优化模块通过Transformer动态调整初始轨迹 使其与能量极小值区域对齐[7][22] - 运动解耦生成规划器采用条件扩散框架 使用两组门控查询分离意图预测与轨迹去噪任务[28] 实验性能表现 - 使用ResNet-34骨干网络时EPDMS达84.9分 超越DiffusionDrive的84.2分和DriveSuprim的83.1分[40] - 采用V2-99骨干网络后EPDMS提升至86.3分 较最优基准方法提升0.3分[40] - 在DAC(97.4)、DDC(99.6)、TTC(97.9)等安全指标上显著领先[40] - 多模态设置下(图像+激光雷达)性能与TransFuser、DiffusionDrive相当或更优[41] 消融实验验证 - 移除流场学习模块导致EPDMS从86.3降至85.8[43][47] - 禁用自适应锚定优化使EPDMS下降0.4分[43][47] - 取消运动解耦设计导致性能降低0.2分[43][47] - 流场参数最优配置为$$k_{lat}=10.0$$, $$k_{lon}=1.0$$, $$\eta=1.0$$, $$\sigma=10.0$$[43] 行业技术背景 - 端到端自动驾驶成为主流范式 基于BEV的方法可分为回归式(如UniAD、VAD)与生成式(如GenAD、DiffusionPlanner)两类[10][11] - 流场表示在机器人领域早有应用 但此前未有效整合进端到端自动驾驶框架[12] - 多任务学习采用MoE、MMoE等门控机制 但现有方法存在特征纠缠问题[13]