Workflow
自动驾驶之心
icon
搜索文档
技术之外,谈一下自驾领域的HR面试和谈薪技巧!
自动驾驶之心· 2025-07-10 11:03
HR面试核心考察点 - 稳定性:工作稳定且负责,避免频繁跳槽(1年内跳槽会被质疑)[1] - 思维能力:逻辑推演和临场反应能力,体现高情商与聪明度[1] - 性格特质:乐观积极、团队意识强、情绪稳定以促进合作[1] - 抗压能力:面对失败能快速调整并重新尝试[1] - 沟通合作:大局观强,主动沟通并敢于表达观点[1] HR常见问题分类 沟通与综合能力 - 自我介绍需谦逊自信,采用总分结构突出优势[2] - 优缺点回答需真诚,技术类缺点可提及"爱钻牛角尖"[2] 稳定性评估 - 离职原因需客观被动,避免负面评价前公司[3] - 求职动机需结合应聘公司特点(如成长机会)[3] 沟通与冲突处理 - 与主管冲突时优先自我反思,强调全局视角[4] - 对主管要求需体现服从大局,关键问题协商解决[5] 薪资与谈判技巧 - 期望薪资建议参考岗位范围并上浮2k-3k[6] - 需明确薪资架构(绩效、五险一金基数等)[6] 求职资源与行业内容 自动驾驶领域专项 - 覆盖毫米波融合、BEV感知、规划控制等10大技术方向[11] - 包含CUDA部署、多传感器标定等实战问题[11] 具身智能领域 - 涉及Nerf、轨迹预测、Occupancy感知等前沿技术[15] - 提供视觉语言导航(VLN)、Diffusion Policy等面试题库[15] 行业研究与面经 - 汇总世界机器人报告、人形机器人蓝皮书等深度研报[16] - 收录理想汽车、英伟达等公司算法岗面经案例[18][22] 求职辅助服务 - 提供谈薪技巧、简历优化及内推资源[6][20] - 包含算法岗技能树、转行经验等宏观指导[23]
Gaussian-LIC2:多传感器3DGS-SLAM 系统!质量、精度、实时全要
自动驾驶之心· 2025-07-09 20:56
3D视觉与SLAM技术发展 - 同时定位与建图(SLAM)是支撑混合现实和机器人空间感知的基础技术,近年来神经辐射场(NeRF)和三维高斯喷溅(3DGS)引领了基于辐射场的SLAM新范式[3] - 基于NeRF的SLAM系统采用多层感知器表示场景,虽能实现高质量稠密地图但计算开销大,难以满足实时需求[4] - 3DGS技术突破实时性限制,具备快速渲染和出色视觉质量,在室内场景精度和渲染质量上优于NeRF系统[4] - 现有LiDAR-惯性-相机融合的3DGS SLAM系统在稳健状态估计和高视觉质量建图方面表现优异,但仍存在重建盲区、几何精度不足等挑战[6][7] Gaussian-LIC2系统创新 - 提出首个兼顾视觉质量、几何精度与实时性能的LiDAR-惯性-相机3DGS SLAM系统,实现实时高精度位姿估计和高保真地图构建[12] - 通过稀疏深度补全网络融合LiDAR与图像数据,预测未覆盖区域深度,全面初始化高斯分布缓解重建盲区[12] - 系统采用连续时间紧耦合LiDAR-惯性-相机里程计,支持异步多传感器数据无插值误差融合,提升稳定性和精度[11] - 创新性地将逐步构建的高斯地图光度约束与LiDAR-惯性数据在连续时间框架中融合,增强退化场景下的里程计鲁棒性[12] 技术实现细节 - 系统采用滑动窗口机制,窗口长度0.1秒,通过控制点扩展轨迹并在窗口内优化状态量[14] - 构建连续时间因子图,包含LiDAR因子、惯性因子和两种相机因子(LiDAR地图重投影约束和高斯地图光度约束)[17][22][23] - 采用SPNet深度补全模型,高效紧凑且无需微调即可使用,通过图像块遍历策略补充LiDAR盲区点云[32][34] - 高斯初始化采用邻域点计算样本协方差确定尺度方向,优化过程采用CUDA加速,限制在活跃高斯子集[35][38] 性能评估 - 在公开数据集测试中,系统定位精度达到0.03m平移误差和0.43°旋转误差,优于同类方法[45] - RGB渲染质量指标PSNR达30.36,SSIM达0.831,LPIPS低至0.144,展现卓越的视觉保真度[48] - 系统在LiDAR退化场景仍保持稳定性能,得益于高斯地图提供的光度约束[47] - 支持每秒数帧的实时建图速率,满足移动机器人和混合现实平台需求[44] 行业应用前景 - 系统可广泛应用于路径规划、主动建图、三维网格重建等机器人任务[3] - 技术扩展性支持视频帧插值、快速网格提取等下游任务[12] - 配套发布专用LiDAR-惯性-相机数据集,含真值位姿和深度图,推动新视角合成能力评估[12] - LiDAR成本显著下降提升技术集成可行性,加速在无人驾驶、AR/VR等领域的商业化落地[4]
聊过十多位大佬后的暴论:自动驾驶还有很多事情没做,转行具身大可不必!
自动驾驶之心· 2025-07-09 20:56
前沿技术发展路线 - BEV感知方案已完全成熟并广泛应用于量产 目前没有哪家智驾方案敢说BEV不能用 基于BEV的动态感知 静态感知 OCC感知全都可以做 [11] - 端到端方案在实际中除PR外未展现出相对两阶段模型的真正优势 从数据收集难度 训练代价等角度看 后者实操性更强 [3] - VLA/VLM成为行业新宠 提供解决corner case的可能性 但真正落地效果尚待验证 目前缺乏足够数据研究其在corner case上的表现 [4] - 扩散模型是轨迹生成的新方式 尤其适合多模轨迹生成 但真实场景表现仍需验证 [16] - 世界模型主要用于仿真和数据生成 在预训练和端侧推理方面仍有待挖掘 [49] 技术难点与挑战 - 当前最大难点是corner case处理 99%场景已能收敛 但非结构化乡村道路 多上下匝道等极端场景仍难以100%通过 [11] - VLA面临三大问题:缺乏验证数据 模型效率不足 训练方案仍依赖模仿学习 [4][5] - 小模型效果优化 大模型量化加速 车端芯片性能优化是VLM量产需要攻克的难点 [37] - 多模态语言模型存在幻觉问题 对视觉和激光雷达等模态的理解容易产生幻觉 [47] - 闭环仿真仍需发力 位姿不准时的重建质量和新视角效果是待解决问题 [16] 未来发展方向 - 构建基于BEV的自动驾驶专用VLM大模型是值得尝试的方向 [18] - 自动驾驶技术将围绕更安全的驾驶 更好的乘坐体验 更全面的场景覆盖发展 数据运营能力将成为核心竞争力 [26] - 中心化是未来趋势 从单车智能向V2X等群体智能发展 实现云端信息联合 [44] - 扩散模型在实时性方面的提升值得关注 如CVPR2025的DiffusionDrive [36] - 3D高斯可向世界模型发展 高斯核形状与核函数的替换有深挖空间 [49] 行业现状与趋势 - 2025年关键词是"智驾平权" 平价车型开始普及辅助驾驶 但低算力方案在corner case处理上仍力不从心 [33] - BEV感知从开源到广泛上车用了两年时间 而VLM等新技术尚未摸清就急于落地 行业风气浮躁 [45] - 自动驾驶符合二八定律 剩下20%长尾场景需要80%努力 方向是采用端到端和大模型 [35] - 行业竞争将从算法转向数据闭环效率 自动化工具链和AI驱动数据流水线是关键 [26] - L2+玩家注重VLM泛化性 L4玩家则聚焦世界模型以提升安全性 [23]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 20:56
自动驾驶算法模块 - 自动驾驶算法分为两大模块:场景理解(理解周围环境、预测agents行为)和决策(生成安全舒适轨迹、可定制化驾驶行为)[1][2] - diffusion planner工作聚焦于决策模块中的闭环场景性能提升[3] 自动驾驶规划方法对比 - rule-based方法(如PDM)依赖道路中心线选择和规则系统,存在迁移性差、人力成本高、缺乏灵活性等问题[4] - learning-based方法(如UniAD、VAD)通过模仿学习实现类人行为预测,但面临多模态数据分布学习困难,仍需依赖rule-based兜底[6] diffusion model技术优势 - 能更好拟合多模态驾驶行为数据分布,通过高斯加噪/降噪过程分解复杂问题[6] - 基于classifier guidance机制实现定制化驾驶行为,无需针对特定场景重新训练模型[6] - 已在图像生成、机器人动作生成、离线RL等领域验证其高效学习能力[11] diffusion planner核心技术 - 采用MLP-Mixer+self-attention的encoder结构进行高效信息提取[12] - 通过cross-attention降低计算量,DPM-Solver实现20Hz高速轨迹生成[12] - 同时完成自车规划和周车行为预测,支持定制化驾驶行为生成[12] 性能提升表现 - 测试数据显示在Test14、Test14-hard、Val14场景分别达到89.19、75.99、89.87分,显著优于Diffusion-es等对比模型[20] - 实现高质量轨迹生成和多模态驾驶行为拟合(如无导航信息下生成左转/右转/直行轨迹)[14][16] - 在毫末200小时物流车数据上展现强泛化能力,适应非机动车道行驶等特殊场景[23] 后续优化方向 - 数据量和模型参数量scale up对闭环性能的影响[28] - 端到端框架设计而不仅限于planner模块优化[28] - 训练和推理过程的进一步加速[28] - 实车场景下的高效guidance机制实现[28]
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 20:02
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,通过传感器数据直接输出规划或控制信息,避免模块化方法的误差累积 [1] - BEV感知打通模块化壁垒,UniAD统一感知和规划任务,标志着端到端时代的来临 [1] - 2024年理想汽车宣布E2E+VLM双系统架构量产,显示工业界对端到端技术的重视 [1] - 技术方向多样化:PLUTO(二段式)、UniAD(感知一段式)、OccWorld(世界模型一段式)、DiffusionDrive(扩散模型一段式)等算法涌现 [4] 技术挑战与学习痛点 - 端到端技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识,学习路径复杂 [3] - 论文数量繁多且知识碎片化,缺乏高质量文档和系统实战指导,入门难度高 [3] - 目标驱动导航需闭环任务支持,但理论与实践衔接困难 [3] 课程核心内容与特点 - 课程覆盖端到端算法发展历史、技术范式(一段式、二段式、VLA)及工业界应用 [8][10] - 重点讲解背景知识:Transformer、BEV感知、扩散模型、VLM强化学习技术(RLHF、GRPO) [8] - 二段式端到端聚焦PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [9] - 一段式端到端涵盖UniAD、OccWorld、DiffusionDrive、VLA等子领域,配套Diffusion Planner和ORION实战 [10][12][13] - 大作业为RLHF微调实战,可迁移至VLA算法 [14] 课程结构与安排 - 分五章展开:端到端概述、背景知识、二段式、一段式与VLA、RLHF大作业 [8][9][10][14] - 8月15日开课,三个月结课,离线视频+VIP群答疑+三次线上答疑 [20] - 章节解锁时间:第一章(8.01)、第二章(8.15)、第三章(8.30)、第四章(9.15)、第五章(10.30) [20] 目标人群与学习收获 - 需具备GPU(推荐4090+)、自动驾驶基础、Transformer/BEV/强化学习概念、Python/PyTorch能力 [22] - 学完可达1年经验算法工程师水平,掌握端到端框架及BEV、扩散模型、VLA等关键技术 [23] - 可复现主流算法,应用于实习、校招、社招场景 [23]
调研了一圈,还是更想做自动驾驶!
自动驾驶之心· 2025-07-09 15:22
产品发布与销售 - 黑武士001自动驾驶教研小车正式开售,原价36999元,现赠送3门课程(模型部署+点云3D检测+多传感器融合)[1] - 当前订单已排满两个月,5台及以上批量采购可享优惠,主要面向高校和研究院所[2] 产品定位与功能 - 定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等全栈功能平台[5] - 支持二次开发和改装,预留多种传感器安装接口(相机、毫米波雷达等)[6] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具等[9] 硬件配置 - 主要传感器:Mid 360 3D激光雷达(FOV 360°×59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[16][26] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器[16] - 阿克曼底盘设计,车体尺寸620×400×320mm,自重30kg,最大载重30kg[18][19] - 续航时间>4小时,最高运动速度2m/s,采用24V/50W供电[18][19] 软件与算法 - 基于ROS框架开发,支持C++/Python语言,提供一键启动开发环境[21] - 功能覆盖2D/3D目标检测与分割、多模态SLAM(视觉/激光/惯性)、点云处理、导航避障等22项核心算法[22] - 代码示例显示支持多传感器数据融合(激光/视觉/IMU)及地图构建功能[41] 性能展示 - 实测场景包括户外公园行驶、室内外3D建图(精度达2cm)、上下坡动态测试等[10][12][13][14][15] - 点云3D目标检测和2D激光建图功能通过实际场景验证[11][12] 售后支持 - 提供1年非人为损坏保修服务,人为损坏可付费维修[44] - 硬件采购和技术咨询可通过专属渠道联系[44]
2026届自动驾驶秋招招聘,趋势变化有些大。。。
自动驾驶之心· 2025-07-09 15:22
行业招聘趋势 - 去年自动驾驶和互联网行业整体不景气,多家公司裁员或倒闭,25届校招受影响较大 [2] - 今年行业复苏迹象明显,小米、比亚迪、小鹏等公司恢复大规模招聘,预计26届行情有望追平24届水平 [2] - 提前批招聘效力逐年减弱,仅顶级人才可能获得超级offer,普通学生集中在7月底至11月底获offer,11月底至春节为补录阶段 [2] 暑期实习重要性 - 大公司更倾向实习转正招聘,因候选人具备实际工作基础且薪酬成本更低 [2] - 广义可转正实习周期为2月底至10月底,与秋招同步进行 [2][4] - 有效实习需至少2个月,时间越长优势越大,建议尽早实习以避免与秋招面试冲突 [4] 秋招时间规划 - 暑期实习招聘:2-7月(可转正实习持续至10月底) [4] - 暑期实习集中期:5-8月 [4] - 秋招正式批:7-10月,简历投递黄金期为8月中下旬,避开早期竞争高峰 [4] 薪酬与岗位竞争 - 校招顶尖薪酬案例:博士总包90万、硕士65万,社招5年经验者可达180万 [5] - 社招重点考察项目细节解决能力与技术深度,校招更依赖面试经验与规划 [5] - 新兴岗位如大模型、端到端算法、自动标注等需提前了解具体职责以避免职业误选 [5] 求职课程内容 - 课程覆盖行业分析、刷题方法、简历优化、项目/压力/技术格局面试、谈薪策略等全流程 [6] - 针对自动驾驶领域设计,含主机厂与科技公司业务对比、高频面试题解析、岗位晋升路径等 [6][8] - 讲师团队由头部公司技术负责人、面霸及算法工程师组成,适配校招/社招/转行人群 [16][17] 课程安排 - 开课时间4月30日,结课6月30日,适配秋招周期,提供离线视频与VIP群答疑 [19] - 课程版权归属明确,严禁盗录,举报者可获奖励 [21]
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型~
自动驾驶之心· 2025-07-08 21:13
核心观点 - 大型视觉-语言-动作模型在机器人任务中展现出强大泛化能力,但受限于数据收集难度,主要集中在控制简单夹持器末端执行器上 [3] - DexVLG是一个大型视觉-语言-抓取模型,能够根据语言指令通过单视角RGBD输入预测灵巧抓取姿态 [3] - 公司开发了包含1.7亿个灵巧抓取姿态的DexGraspNet 3.0数据集,涉及174,000个模拟目标,配有详细part级描述 [3][9] - DexVLG在模拟中实现超过76%的零样本执行成功率,在真实世界场景中成功实现与部分对齐的抓取 [3][7] 领域介绍 - 大型VLA模型通常具有十亿级参数,并在十亿级机器人数据集上训练,但当前仅限于平行夹持器控制 [4] - 缺乏灵巧抓取数据是主要限制因素,现有数据收集方法需要大量人力或缺乏语义感知 [4] - 功能性灵巧抓取研究受限于小规模数据集,限制了模型容量和泛化能力 [4] 数据集构建 - DexGraspNet 3.0是目前最大的灵巧抓取数据集,包含1.7亿个抓取姿态和174k个object [9][10] - 数据来源于Objaverse数据集,使用GPT-4o进行过滤和处理,生成229K个有效object [11] - 使用SAMesh进行零样本几何部分分割,GPT-4o自动标记部分名称 [11] - 每个抓取姿态都经过基于物理的模拟器IsaacGym验证,并配有语义标题和部分级注释 [9] 模型架构 - DexVLG以单视角点云和语言指令为输入,输出符合指令的抓取姿态 [24] - 采用预训练的Uni3D骨干网络作为点云编码器,参数规模从2300万到3.07亿不等 [25][26] - 使用Florence-2的LLM基础模型处理语言输入,参数规模从2.32亿到7.71亿 [27] - 基于流匹配的姿态去噪模块生成灵巧抓取姿态,与LLM共享Transformer架构 [28] 实验结果 - DexVLG在模拟中实现76.1%的抓取成功率,48.1%的部分抓取精度 [31] - 相比基线模型DGN2.0*+CLIP的68.2%成功率有显著提升 [31] - 模型展示了强大的零样本泛化能力,在真实世界场景中成功执行 [7]
想去华为,算法方向不对口,找工作有点慌了。。。
自动驾驶之心· 2025-07-08 20:45
自动驾驶求职辅导业务 - 目标人群为希望转型智能驾驶方向的应届生和职场人士 周期2个月左右 以求职成功为导向 提供1v1辅导 [4] - 基本服务收费8000元/人 包含10次线上会议 每次不低于1小时 含8次答疑和2次面试复盘 [6][7] - 进阶服务提供项目实战机会 收费3000元 模拟面试收费2000元 含HR和业务面试环节 [11] 辅导服务内容 - 分析学员画像 评估知识结构与能力模型 找出与目标岗位差距 [7] - 制定学习计划 提供文档资料和网络链接等学习资源 [13] - 每周定期会议答疑 随时线上提问 结束前优化简历匹配度 [13] 可辅导岗位范围 - 覆盖智能驾驶全链条岗位 包括算法 软开 测试 系统工程师等 [11] - 包含产品经理类岗位 如智能驾驶产品和智能座舱产品经理 [11] - 涵盖行业分析师等咨询方向岗位 [11] 师资力量 - 辅导老师均为行业专家 具备8年以上从业经验 [12] - 来自自动驾驶独角兽企业和主机厂 覆盖产品 算法 测试等多领域 [12] - 具有头部车企智能驾驶产品方案经验 参与早期座舱方案开发 [14] 行业现状与痛点 - 自动驾驶算法岗要求高 需顶会论文或直接岗位经验 [2] - 技术迭代快 学生时代技术栈与就业需求不匹配 [2] - 转行人员普遍存在简历与岗位要求不匹配问题 [3][9]