Workflow
自动驾驶之心
icon
搜索文档
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]
清华提出CoopTrack:端到端协同跟踪新方案(ICCV'25 Highlight)
自动驾驶之心· 2025-07-28 18:41
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 协同感知旨在通过多智能体间的信息交换来克服单智能体自动驾驶系统的固有局限。以往研究主要集中在 单帧感知任务上,而更具挑战性的协同序列感知任务(如协同3D多目标跟踪)尚未得到充分探索。为此, 清华、香港理工等团队提出了CoopTrack,一个全新的、面向实例级别的端到端协同跟踪框架。该框架的核 心特点是 可学习的实例关联 (learnable instance association) ,这使其与现有方法有根本区别。CoopTrack 传输稀疏的实例级特征,在显著提升感知能力的同时,保持了较低的通信开销。该框架包含两个关键组 件: 多维特征提取 (Multi-Dimensional Feature Extraction, MDFE) 和 跨智能体关联与聚合 (Cross-Agent Association and Aggregation)。前者能够结合语义和运动特征,实现全面的实例表征;后者则基于特征图, 实现自适应的跨智能体关联与融合。在 V2X-Seq 和 Griffin 数据集上的实验表明,Co ...
看完懂车帝的测评,才发现和特斯拉的差距可能在4D自动标注...
自动驾驶之心· 2025-07-28 18:41
智能驾驶行业现状 - 2025年主机厂普遍以1000万clips量产为目标 但当前国内近40款车型辅助驾驶通过率低至1/6 部分车型甚至零通过 与特斯拉存在显著差距 [1] - 行业共识认为模型算法仅能实现智驾能力从0到10的突破 而从10到100需依赖数据闭环和自动标注系统 [1] - 特斯拉自2021年起积累亿级自动标注数据 国内企业在该领域整体落后 [1] 4D自动标注技术核心 - 动态障碍物标注需整合四大模块:离线3D目标检测、离线跟踪、后处理优化、传感器遮挡优化 [4] - 3D检测主流采用点云目标检测或激光雷达-视觉(LV)融合方案 需通过跟踪算法串联多帧结果 [2][3] - 静态元素标注依赖SLAM重建技术 通过全局clip道路信息避免单帧感知偏差 [13] - OCC标注成为行业标配 需解决点云稠密化、噪声优化及跨传感器遮挡等工程问题 [14] 技术难点与突破方向 - 时空一致性要求连续帧动态目标追踪误差小于阈值 复杂场景下断裂率需控制在5%以下 [6] - 多模态融合涉及激光雷达/相机/雷达数据 时延补偿需达到毫秒级同步精度 [6] - 量产场景泛化需覆盖200+城市道路类型 标注算法在极端天气下的稳定性不足70% [7] - 端到端标注采用两段式架构 动态障碍物/静态元素/可行驶区域标注需实现98%以上的系统耦合度 [15] 行业技术发展趋势 - 无监督预训练+微调范式成为新方向 联合标注替代传统分离式标注流程 [2] - 数据闭环架构遵循scaling law 头部企业已建立PB级数据处理能力 [16] - 闭环仿真技术如DrivingGaussian算法成为端到端自动驾驶刚需 仿真场景覆盖度提升300% [15] 人才能力需求 - 工程师需同时具备多模态感知算法开发能力(3D检测/OCC/SLAM)和分布式系统优化经验 [10][14] - 量产项目要求掌握DetZero等时序后处理算法 轨迹ID跳变解决率需达99.5%以上 [10] - 岗位面试重点考察跨传感器标定(误差<0.1度)和复杂场景数据挖掘能力 [17]
秋招正当时!自动驾驶之心求职交流群来啦~
自动驾驶之心· 2025-07-28 11:15
行业趋势与人才需求 - 自动驾驶技术栈呈现趋同态势 传统分散的算法工程师需求正被统一技术方案取代 如one model、VLM、VLA等方向 [1] - 行业技术壁垒显著提升 统一方案推动对高阶技术人才的需求 [1] - 从业者普遍存在转型需求 包括传统规控转向大模型、具身智能等新兴领域 [1] 社群运营与行业资源 - 社群定位为综合型行业平台 聚焦自动驾驶产业讨论 涵盖公司动态、产品研发及求职跳槽等核心议题 [1] - 社群目标为整合全行业人才资源 通过交流促进成员职业发展 [1] - 提供产业信息第一手渠道 强化行业人脉网络建设 [1] 人才流动特征 - 校招群体面临实习限制与算力资源短缺等结构性困境 [1] - 资深从业者主动寻求技术方向转型 反映行业技术迭代加速 [1]
传统感知和规控,打算转端到端VLA了...
自动驾驶之心· 2025-07-28 11:15
端到端VLA技术发展现状 - 端到端自动驾驶技术分为一段式与二段式两大方向 一段式包括基于感知(UniAD)、世界模型(OccWorld)、扩散模型(DiffusionDrive)等子领域 二段式以PLUTO为代表 [2] - 基于VLM的方法推动自动驾驶进入大模型时代 形成VLA(Vision-Language-Action)新方向 传统BEV感知、多传感器融合等技术已相对成熟 学术界研究热点明显转移 [2] - 工业界仍在优化传统感知规划方案 但学术界研究资源已集中投向大模型与VLA领域 该领域存在大量待探索的子方向 [2] VLA科研辅导课程设计 - 课程采用"2+1"多师制 主导师由名校教授/行业专家担任 配备科研班主任全程督导 包含12周在线科研+2周论文指导+10周维护期 [11][14] - 提供完整科研闭环支持:从经典/前沿论文分析(PLUTO/UniAD等)、baseline代码(VAD/DiffusionDrive等开源项目)、数据集(nuScenes/Waymo)到论文写作投稿全流程 [8][18] - 硬件要求最低配置4张NVIDIA 4090显卡 推荐8张 支持云服务器租赁方案 [12] 目标学员与课程产出 - 面向本硕博学生 需掌握Python/PyTorch基础 通过1v1面试考核 课程包含先修课强化深度学习与自动驾驶算法基础 [6][12] - 学员将获得:论文初稿(含导师定制idea)、结业证书、推荐信(优秀者) 以及系统的科研方法论与coding能力提升 [11][15] - 解决三大核心痛点:知识碎片化问题(建立VLA体系)、动手能力差问题(复现SOTA模型)、论文写作障碍(提供写作模板与投稿策略) [7] 技术资源支持 - 开源框架覆盖主流技术路线:基于模仿学习(UniAD/VAD)、扩散模型(DiffusionDrive/OccNet)、VLA(OpenDriveVLA/SimLingo)等 [18] - 必读论文包括Senna(视觉语言模型与自动驾驶桥接)、ORION(语言指令生成行动框架)等5篇顶会前沿研究 [18] - 采用腾讯会议直播+小鹅通回放形式 提供6个月答疑周期 严格学术诚信要求(剽窃零容忍) [14][20][21]
开放词汇分割新SOTA!Talk2DINO:让分割又快又准还懂人话~
自动驾驶之心· 2025-07-27 22:41
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇被 ICCV 2025 接收的多模态模型相 关 工作。 本文提出了 Talk2DINO ,旨在解决开放 词汇分割(OVS)任务中视觉 - 语言模型空间定位能力不足与自监督视觉模型缺乏语言整合的问题。 如果您有相 关工作需要分 享,请在文末联系我们! >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 论文标题:Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation 论文链接:https://arxiv.org/pdf/2411.19331 开源链接:https://lorebianchi98.github.io/Talk2DINO/ 背景与动机 开放词汇分割(Open-Vocabulary Segmentation, OVS) 是计算机视觉领域的一项基础任务,其目标是根据推理时提供的自然语言概念,将输入图像 ...
高保真实景还原,最强性价比3D激光扫描仪!3DGS版本来啦~
自动驾驶之心· 2025-07-27 22:41
产品概述 - GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,提供高效实用的三维解决方案 [1] - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] - 设备自带手持Ubuntu系统和多种传感器设备,手柄集成电源,为雷达、摄像头及主控板供电 [1] 核心技术参数 - 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景 [1][24] - 相对精度优于3cm,绝对精度优于5cm [17] - 搭载Intel N5095处理器,4核2.0GHz(睿频2.9G),16G内存/256G硬盘(可拓展TF卡) [17] - 支持pcd, las, plv等多种通用数据格式导出 [17] - 采用微秒级同步技术实现多传感器数据融合 [29][30] 硬件配置 - 尺寸14.2cm * 9.5cm * 45cm,重量1.3kg(不含电池) [17] - 配备Livox Mid-360激光雷达、Intel D435i深度相机、T-RTK UM982 Mobile定位模块 [18] - 电池容量88.8Wh,续航约3-4小时 [17][21] - 配备5.5寸触控屏(1280x720)、千兆网口、双USB 3.0接口、Micro SD扩展 [17][18] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂场景 [33][42] - 支持跨平台集成,适配无人机、无人车、机械狗、人形机器人等多种负载平台 [39] - 可用于地理信息采集、工程监控、文物保护、城市规划等领域 [48][50] 产品版本与定价 - 基础版:19800元 - 深度相机版:23800元 - 3DGS在线版:39800元 - 3DGS离线版:67800元 [53][54] 研发背景 - 由同济大学刘春教授团队和西北工业大学产业化团队联合开发 [4] - 基于多年科研积累和上百个项目验证 [4]
英伟达自动驾驶算法工程师面试
自动驾驶之心· 2025-07-27 22:41
自动驾驶行业招聘与求职 - 英伟达自动驾驶职位划分非常细致 今年仅开放实习转正通道 无校招名额 笔试包含3道算法题 涉及图搜索和动态规划等题型 [3][4] - 面试流程包含5轮技术面 每轮均有1-2道算法题 重点考察MPC规划控制、Hybrid A*算法、运动学约束算法等专业知识 以及链表操作、动态规划等编程能力 [5][6][8][10][11] - 技术面试深度涉及自动驾驶核心算法 包括MPC优化问题构造、非线性优化器选择、QCQP求解、iLQR与DDP区别等控制理论 以及state lattice规划、kinodynamic-RRT改进等运动规划算法 [5][11] - 最终轮为全英文技术主管面试 侧重项目细节与工程实现 包含EKF原理、多传感器时间同步等嵌入式系统经验 以及递归/迭代编程能力测试 [13] 自动驾驶技术发展趋势 - 行业技术栈呈现趋同态势 传统分散技术方向正被one model、VLM、VLA等统一方案取代 技术壁垒显著提高 [20] - 算法工程师需掌握跨领域技能 包括感知转大模型、规则转具身智能等转型需求 反映行业对复合型人才的需求增长 [20] - 前沿技术方向涵盖端到端自动驾驶、世界模型、BEV感知、Occupancy网络、多模态融合等30+技术路线 显示行业技术多元化发展 [22][24] 自动驾驶人才社区生态 - AutoRobo知识星球聚集近1000名行业从业者 覆盖智元机器人、地平线、小米汽车等知名企业 形成求职交流平台 [18] - 社区规模达4000人 吸引300+企业与科研机构加入 提供技术方案分享与岗位发布功能 [22] - 专业课程体系包含BEV模型部署、多传感器标定、轨迹预测等20+方向 配套学习视频资源 构建完整人才培养路径 [24]
OmniRe全新升级!自驾场景重建色彩渲染和几何渲染双SOTA~
自动驾驶之心· 2025-07-27 22:41
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 自动驾驶场景重建图像几何SOTA新工作。 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Nan Wang等 编辑 | 自动驾驶之心 导读 在自动驾驶场景的三维重建中,神经渲染技术(如高斯溅射)正扮演日益重要的角色。然而,真实世界 中光照、相机参数和视角的不断变化,导致了图像间的"色彩不一致性",这严重挑战了重建的真实感与 几何精度。为解决此问题,作者们 提出了一个 创新的多尺度双边网格框架 。该框架巧妙地 统一了外观 编码(Appearance Codes)和双边网格(Bilateral Grids) ,实现了对驾驶场景中复杂光影变化的精确 建模,从而 显著提升了动态场景重建的几何精度和视觉真实感。 论文链接:https://arxiv.org/abs/2506.05280 代码仓库(Github):https://githu ...
谈薪避坑、跨行转岗?自驾/具身/大模型求职,AutoRobo星球一站搞定!
自动驾驶之心· 2025-07-27 15:14
行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [2] - L2~L4自动驾驶功能持续量产 人形机器人和四足机械狗等具身智能产品取得技术突破 [2] - 行业对技术和人才需求旺盛 涵盖自动驾驶 具身智能 3D视觉 机器人等多个领域 [2] 求职社区概况 - AutoRobo知识星球成立半年 成员近1000名 覆盖机器人 自动驾驶 具身智能方向求职者 [2] - 成员包括地平线 理想汽车 华为 小米汽车等公司社招人员 以及2024-2025届秋招学生 [2] - 社区提供面试题目 面经 行业研报 谈薪技巧 内推机会 简历优化等全方位求职服务 [3] 核心资源内容 面试题库 - 自动驾驶方向包含毫米波视觉融合 3D/4D毫米波雷达量产 车道线检测等10个专业领域的一百问 [7] - 具身智能方向包含轨迹预测 Occupancy感知 相机标定等6个领域的一百问 [8][11] - 涵盖算法 开发 产品等岗位的校招 社招 实习面试问题 [4] 行业研究报告 - 提供世界机器人报告 中国具身智能创投报告等7份深度行业研究报告 [15] - 研报内容涵盖技术路线 市场机遇 上下游产业等行业发展关键信息 [12] 面试经验分享 - 收集了来自滴滴 英伟达 美团 小米等10家公司的成功与失败面试案例 [16] - 包含算法工程师 SLAM算法岗 产品经理等不同岗位的详细面经 [16] - 提供面试心得 转行经验 面试官建议等实用求职指导 [19] 会员服务价值 - 每日成本仅0.3元 提供完整求职服务体系 [20] - 可获取专业基础书籍 机器人/AI类学习资料 [17] - 包含谈薪技巧 HR面常见问题等职场进阶内容 [19]