自动驾驶之心
搜索文档
再见伪影!港大开源GS-SDF:SDF做高斯初始化还能这么稳~
自动驾驶之心· 2025-07-24 14:46
技术方案 - 提出统一的激光雷达-视觉系统,结合三维高斯喷溅(3DGS)与神经有符号距离场(NSDF),实现几何一致的真实感渲染与高精度表面重建 [5][6] - 通过NSDF提供的流形几何场进行高斯原语初始化,提升训练收敛性并减少悬浮伪影 [22][23] - 设计双向监督的形状正则化方法,在NSDF与高斯喷溅之间建立几何约束,优化渲染与重建效果 [6][28][33] 核心创新点 - 基于物理的高斯初始化策略,利用NSDF提取表面网格顶点作为初始位置,并通过SDF值定义不透明度 [23][24] - 针对背景渲染的"天空初始化"方案,在大球面上均匀布置高斯以避免前景伪影 [25] - 结合渲染法线一致性损失与SDF表面采样点约束的双重几何正则化框架 [30][33] 性能表现 - 在Replica数据集上平均表面重建精度达0.506cm(C-L1指标),优于M2Mapping的0.499cm [46] - 外推渲染SSIM达0.955,显著高于3DGS(0.914)和InstantNGP(0.944) [46] - FAST-LIVO2数据集测试中,平均PSNR达26.988,较基准方法提升1.5dB以上 [49] 应用场景 - 适用于机器人导航、数字孪生等需要实时高质量三维重建的领域 [1] - 支持低成本激光雷达与相机组合的硬件方案,降低部署门槛 [5][48] - 在稀疏观测条件下仍能保持几何一致性,适应复杂环境 [3][6] 实现细节 - 采用哈希编码+MLP构建可扩展的NSDF网络,通过Eikonal正则化保证梯度稳定性 [16][20] - 渲染阶段使用alpha混合的光栅化方法,结合L1+DSSIM损失优化颜色输出 [13][14] - 高斯属性参数化包含位置、切向量、缩放因子、不透明度及球谐函数编码颜色 [10][11]
研一结束了,还什么都不太懂。。。
自动驾驶之心· 2025-07-24 14:46
自动驾驶行业技术趋势 - 自动驾驶技术栈趋同,端到端VLA、世界模型等前沿方向成为行业热点 [3][4] - 传统规控仍有岗位需求,但需升级技术栈以适应大模型时代 [3][4] - 低算力环境下实现成果的策略和实践案例受到关注 [6] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大智驾技术社区,聚集近4000名成员 [11] - 社区覆盖30+自动驾驶技术学习路线,包含VLM、世界模型、端到端等前沿方向 [11][13] - 与数十家自动驾驶公司建立1v1内推渠道,简历直达 [11] 视觉语言模型(VLM)研究 - VLM预训练数据集规模从百万级(COCO)到十亿级(LAION5B)不等 [20] - VLM评估涵盖图像分类、文本检索、行为识别等多任务 [21][22][23] - VLM在自动驾驶中的应用包括感知理解、定位规划和决策控制 [29][30][31] 端到端自动驾驶 - 端到端方法整合感知、预测、规划模块,提高系统效率 [32] - 世界模型在端到端驾驶中实现场景理解和未来预测的统一 [34][35] - 扩散模型用于轨迹生成和场景合成,提升驾驶安全性 [37][38] 自动驾驶数据集 - 主流数据集包括KITTI、Cityscapes、nuScenes等,覆盖2D/3D检测、分割等任务 [26] - 语言增强数据集推动VLM在自动驾驶中的应用 [27] - 智能交通领域数据集支持语言引导的车辆检索和VQA任务 [28] 技术社区资源 - 知识星球提供四大板块:前沿技术、技术分类、学术直播、求职资料 [13] - 社区汇总近百个自动驾驶数据集和20+标注工具 [70] - 每周1-2场行业专家直播,年计划100场左右 [72]
SOTA!华科SDG-OCC:基于语义和深度引导的BEV多模态OCC新方案(ICCV'25)
自动驾驶之心· 2025-07-24 12:07
自动驾驶3D语义占用预测技术 - 3D语义占用预测通过为每个3D体素分配标签来建模环境几何和语义,相比传统3D目标检测和语义分割对任意形状和动态遮挡具有更强鲁棒性 [1] - 现有单模态方法存在明显局限:基于相机的方法缺乏深度信息,基于LiDAR的方法受遮挡影响;轻量级方法依赖LSS流水线但BEV特征稀疏且计算量大 [2] - 多模态融合方法计算负担重影响实时应用,需要解决外参冲突导致的特征错位问题 [2][11] SDG-OCC技术创新 - 提出语义和深度引导的视图转换方法,利用LiDAR稀疏深度信息在相同语义类别内扩散生成高精度虚拟点种子,相比LSS流水线显著提升深度估计精度和速度 [16][18][19] - 设计动态邻域特征融合模块,通过门控注意力机制从交叉特征中单向提取邻域特征,解决激光雷达和图像BEV特征错位问题 [23][24] - 采用占用驱动的主动蒸馏策略,基于活跃区域(AR)和非活跃区域(IR)的相对大小应用自适应缩放,平衡知识蒸馏重点 [24] 性能表现 - 在Occ3D-nuScenes数据集上实现SOTA性能:SDG-Fusion模型mIoU达51.66%,推理时间仅133ms;SDG-KL模型mIoU达50.16%,推理时间83ms [28][29] - 在SurroundOcc-nuScenes验证集上:SDG-Fusion模型mIoU达52.2%,SDG-KL模型mIoU达50.4%,优于现有方法 [29][31] - 消融实验显示:集成SDG视图转换使mIoU提升10.67%,结合激光雷达融合后mIoU比基线高13.82% [34][35] 技术实现细节 - 使用ResNet-50作为图像骨干网络,SPVCNN作为激光雷达骨干网络,在RTX 4090 GPU上训练 [27] - 占用网格设置:Occ3D-nuScenes为80m×80m×6.4m范围,0.4m体素;SurroundOcc-nuScenes为100m×100m×8m范围,0.5m体素 [30] - BEV编码器使用残差块进行多尺度特征扩散,占用预测头包含通道到高度的转换模块,将BEV特征从(B,C,H,W)重塑为(B,C,D,H,W) [25]
自动驾驶之心求职交流群来啦!!!
自动驾驶之心· 2025-07-24 12:07
自动驾驶之心求职与行业交流群成立了! 微信扫码添加小助理邀请进群,备注自驾+昵称+求职; 应广大粉丝的要求,我们开始正式运营求职与行业相关的社群了。社群内部主要讨论相关产业、公司、产品研 发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! ...
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 17:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
全球第一企业的能力盲区?
自动驾驶之心· 2025-07-23 17:56
英伟达汽车业务现状 - 英伟达市值达4万亿美元成为全球第一,CEO黄仁勋访华并积极拉拢中国车企[5] - 汽车业务仅占英伟达1305亿美元总收入的不到2%,2026年自动驾驶业务目标收入50亿美元[7][11] - 华为智能车BU去年软硬件综合营收264亿元,相当于英伟达10天收入[12] 车企合作与替代趋势 - 通用汽车评测英伟达辅助驾驶方案后内部评价"very scary",合作蒙上阴影[7][8] - 奔驰测试显示英伟达辅助驾驶效果不如中国公司Momenta,已将部分车型业务转给Momenta[9][10][11] - 捷豹路虎也在寻找替代供应商,英伟达员工在中国基本不对接车企项目[11] 芯片延期与客户流失 - 英伟达Thor芯片多次延期,理想汽车改款车型因此推迟导致约60亿元销售损失[18][19] - Thor芯片存在设计缺陷,算力从宣传的700TOPS缩水至不足500TOPS[21] - 小鹏汽车放弃Thor平台开发,转向自研图灵芯片并已上车交付[20] 车企自研芯片进展 - 蔚来、小鹏、理想自研芯片成本各约3-4亿美元,蔚来芯片可帮助单车降本1万元[25][32][35] - 小鹏图灵芯片集成双ISP提升感知能力,理想加快自研芯片进度提前至明年一季度[22][35] - 比亚迪、小米、理想等都将推出自研汽车芯片,未来英伟达芯片可能仅用于海外车型[24] 技术路线与行业趋势 - 英伟达将汽车和机器人部门合并,视汽车为"无手机器人"的具身智能落地场景[13] - 特斯拉FSD下一代芯片AI5算力达2000-2500TOPS,参数量将扩大4.5倍[36] - 高通汽车业务营收占比从1.2%增长至近10%,新技术加速应用于汽车芯片[54] 英伟达面临挑战 - Thor芯片采用消费级N4P制程而非车规级工艺,交付受台积电产能优先级影响[41][43][44] - 英伟达企业文化导致交付节奏慢,资源配置不足,黄仁勋很少过问汽车业务[48][49] - 自动驾驶软件领域被Momenta等中国公司超越,团队决策权集中在美国[51][52]
复旦最新BezierGS:贝塞尔曲线实现驾驶场景重建SOTA(ICCV'25)
自动驾驶之心· 2025-07-23 17:56
核心技术突破 - 提出BezierGS方法,利用可学习的贝塞尔曲线显式建模动态目标的运动轨迹和速度,自动校准位姿误差[5][9] - 引入分组曲线间一致性损失,增强动态高斯基元的时间和几何一致性[9][28] - 通过对动态目标渲染的额外监督,实现场景元素的合理和准确分离与重建[9][29] 性能优势 - 在Waymo数据集上新视角合成PSNR达31.51 dB,较最优基线提升1.87 dB,SSIM提升0.014,LPIPS降低8.00%[37][38] - 在nuPlan基准上PSNR达29.42 dB,较最优基线提升3.04 dB,SSIM提升0.036,LPIPS降低16.35%[37][42] - 动态区域保真度Dyn-PSNR在Waymo和nuPlan上分别达28.51 dB和25.12 dB,显著优于现有方法[37][38][42] 行业应用价值 - 高质量动态城市场景重建为自动驾驶闭环仿真提供真实可控环境,支持感知、预测和规划任务[6][8] - 减少对bounding box精确标注的依赖,解决现有数据集标注不精确问题[7][13] - 构建高质量街景世界可降低数据采集成本,为自驾模型训练提供仿真环境[7][8] 技术比较 - 优于依赖手动标注动态目标位姿的方法(如Street Gaussians、OmniRe),避免标注误差限制[5][13] - 超越自监督学习方法(如S3Gaussian、PVG),提供更显式和合理的轨迹表示[8][13][46] - 基于高效3D高斯渲染技术,在保持高渲染速度的同时实现优越渲染质量[11][21]
一边是毕业等于失业,一边是企业招不到人,太难了。。。
自动驾驶之心· 2025-07-23 17:56
自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡,企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性,公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高,对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区,拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线,包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道,提供简历直达服务 [8][10] - 每周活跃度位居国内前20,形成学术与产业界的深度互动 [10][71] 技术研究方向 视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测,代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一,提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型,解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强,如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入,如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务,包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
果然!秋招会惩罚每一个本末倒置的研究生!
自动驾驶之心· 2025-07-23 10:12
就业与科研建议 - 针对毕业生建议校招社招两手抓 注重资源整合与查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 推荐系统性科研辅导课程 [1] 科研辅导案例 - 研二学员通过3个月辅导成功发表SCI论文 解决导师散养问题 [2] 平台优势 - 拥有国内顶尖学术资源 专注自动驾驶 具身智能 机器人等交叉学科领域 [3] - 团队含300+QS前100高校导师 近3年辅导400+学员 中稿率达96% [3] 服务流程 - 12周标准化流程:从选题到投稿分阶段完成 含文献综述 实验设计 初稿润色等环节 [5] 目标用户群体 - 覆盖计算机硕博生 职称提升需求者 人工智能从业者 考研申博留学生等 [10] - 解决导师放养 知识碎片化问题 帮助建立科研思维与完整方法论 [6] 课程交付成果 - 提供论文全流程服务 包括选题 实验 投稿等 目标覆盖CCF-A/B/C SCI1-4区等期刊 [11] - 优秀学员可获名校推荐信或名企内推机会 如阿里达摩院 华为诺亚方舟 [14] 教学模式 - 1v1在线授课 微信群答疑 配备班主任全程督学 [12][15] - 支持零基础学员 通过6个月基础课程+文献带读实现论文产出 [13] 匹配与试听机制 - 采用精准匹配系统 从300+导师中筛选3-5位定向推荐 [13] - 提供名师预沟通服务 不满意可更换或退款 [14]