Workflow
自动驾驶之心
icon
搜索文档
滴滴自动驾驶感知算法一面面经
自动驾驶之心· 2025-07-07 20:17
滴滴自动驾驶技术布局 - 滴滴与广汽埃安联合成立广州安滴科技 专注于L4级无人驾驶研发 技术积累深厚[2] - 公司在自动驾驶领域投入力度大 是2024年求职者值得重点关注的企业[2] 感知算法面试技术考察要点 - 面试深度聚焦2D目标检测领域 要求梳理从传统方法到深度学习的关键算法演进[5] - 重点考察Anchor-Free检测算法FCOS的核心流程理解[6] - 涉及端到端检测算法最新发展 包括DETR的Transformer实现机制[7][8] 项目经验评估维度 - 面试官深度挖掘候选人在BEVDet模型等实际项目中的算法架构设计能力[9] - 重点评估业务落地过程中具体挑战的解决思路 要求结合场景化案例说明[10] - 现场代码能力测试包含NMS后处理等算法实现环节[11] 行业人才发展现状 - 自动驾驶领域技术岗位面试门槛高 要求对简历项目细节和技术原理完全掌握[2] - 行业已形成规模化的求职社群 覆盖地平线/理想汽车/华为等头部企业从业人员[12]
现在自动驾驶领域的行情怎么样了?都有哪些方案?
自动驾驶之心· 2025-07-07 14:47
自动驾驶产业概况 - 自动驾驶分级与应用主要包括行车、泊车、座舱和V2X功能 [1] - 核心系统由芯片、软件和传感器构成 [3] 技术发展趋势 - 传统自动驾驶pipeline仍是基础技术路线 [5] - 新兴技术包括端到端自动驾驶、VLM方案和VLA方案 [6][7] 行业主要参与者 - 主机厂分为新势力(小鹏、理想、蔚来等)、老牌车厂(比亚迪、吉利等)和外企(奔驰、大众等) [7] - 供应商包括已上市企业(地平线、小马智行等)和未上市企业(momenta、轻舟智行等),以及大厂如百度、滴滴 [8] 职位与技术方向 - 传统方案涵盖定位建图(定位匹配、建图)、感知层次(障碍物检测、BEV算法等)和后融合技术 [8] - 新方案包括端到端算法、扩散模型算法、强化学习、世界模型等前沿技术 [8] 行业资源与求职支持 - 提供自动驾驶、具身智能领域的面试一百问,涵盖毫米波视觉融合、BEV感知、规划控制等细分方向 [16][17] - 行业研报包括轨迹预测、Occupancy感知、端到端自动驾驶等深度内容 [21][22] - 分享成功和失败的面试经验,涵盖社招、校招和实习等多个维度 [25][27] - 提供谈薪技巧、HR面常见问题汇总等求职辅助内容 [29][32] 企业招聘与案例 - 招聘信息涵盖算法、开发、产品等岗位,包括校招、社招和实习机会 [11] - 具体企业面经包括滴滴出行、英伟达、小米汽车、华为等公司的真实案例 [31]
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]
自动驾驶之心求职辅导推出啦!1v1定制求职服务辅导~
自动驾驶之心· 2025-07-06 20:11
辅导服务概述 - 推出1v1定制求职辅导服务 目标人群为希望转型智能驾驶方向的应届生和职场人士 周期约2个月 [2] - 课程特色为以求职成功为导向 聚焦目标岗位需求 快速补足知识能力短板 [2] 服务内容 基础服务 - 收费8000元/人 包含至少10次线上1v1会议 每次不低于1小时 [4] - 包含8次答疑+1次面试前复盘+1次正式面试后复盘 [5] - 服务涵盖学员能力评估 定制学习计划 提供学习资料 定期会议答疑 简历优化 岗位内推 [5][6] 进阶服务 - 项目实战需额外付费3000元 提供可写入简历的实际项目参与机会 [6] - 模拟面试需额外付费2000元 包含HR面试和业务面试全流程模拟 [6] 可辅导岗位范围 - 覆盖智能驾驶全链条岗位 包括产品经理 系统工程师 算法 软件开发 测试工程师 智能座舱产品经理 行业分析师等 [6][8] 师资力量 - 辅导老师均为行业专家 包括智驾产品专家 系统架构专家 算法专家等 平均从业经验超8年 [7] - 专家团队来自国内自动驾驶独角兽企业和主机厂 主导过头部车企智能驾驶产品方案 参与早期座舱方案开发 [7][9] - 具备算法/软件/测试全领域实战经验 输出过多份行业重量级研究报告 [9]
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 16:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-06 16:44
视觉大语言模型 - 视觉大语言模型在智能交通和自动驾驶领域有广泛应用,相关资源包括Awesome-VLM-AD-ITS和Awesome-LLM-Inference等GitHub项目 [4] - 视觉语言模型的研究方向包括预训练、迁移学习、知识蒸馏等,涉及CVPR、ICLR、NeurIPS等多个顶会论文 [5][7][8] - 视觉语言模型的架构和推理策略有专门的研究,如Awesome-VLM-Architectures和Awesome-VLM-Inference-Strategies等项目 [4] 世界模型 - 世界模型在自动驾驶中的应用包括3D场景理解和未来场景生成,代表性工作有HERMES和DrivingGPT等 [9][10] - 2025年最新综述总结了自动驾驶中的世界模型研究现状 [10] - 世界模型在4D驾驶场景表示和规划中发挥重要作用,如DriveDreamer4D和DriveWorld等项目 [12][13] 扩散模型 - 扩散模型在自动驾驶视频生成和场景理解中有广泛应用,相关资源包括Awesome-Diffusion-Models等项目 [14] - 扩散模型在图像处理、视频编辑、3D视觉等领域都有专门研究,涉及多篇综述论文 [15] - 扩散模型与自动驾驶世界模型的结合是新兴研究方向,如DriveDreamer-2等项目 [13] 端到端自动驾驶 - 端到端自动驾驶研究涉及感知、预测、规划等多个环节,相关资源包括Awesome-End-to-End-Autonomous-Driving等项目 [21] - 端到端自动驾驶的最新进展在CVPR、ICRA、NeurIPS等顶会上有专门研讨 [21] - 端到端自动驾驶技术栈涵盖大模型、BEV感知、多传感器融合等30+方向 [19][21] 行业社区 - 自动驾驶行业有近4000人的交流社区,300+公司和科研机构参与 [19] - 社区覆盖30+技术方向的学习路线,从基础到前沿全面覆盖 [19] - 社区提供专业课程,涉及端到端自动驾驶、大模型、仿真测试等多个方向 [20][21]
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 16:44
DeepSeek MoE技术演进 - 核心观点:DeepSeek在MoE架构上持续创新,从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分:专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计:用MoE替换FFN层,通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题,防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割:分割FFN隐藏维度增加专家数量,提升知识分解精度 [16] - 共享专家隔离:设置常激活专家捕获共同知识,减少其他专家冗余 [16] - 双层级负载均衡:专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制:限制每个token的激活专家分布在≤3台设备,降低通信成本 [28] - 通信负载均衡loss:公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略:超过设备容量的低权重token跳过计算,通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级:用Sigmoid替代Softmax,解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失:通过动态bias替代多层级负载loss,减少对主模型干扰 [40][41] - 序列级均衡loss:公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1:建立共享专家+细粒度专家框架,引入双层级负载均衡 [44] - V2:优化通信效率,新增设备路由限制和通信均衡机制 [44] - V3:门控函数革新,负载均衡策略简化,支持更大规模专家 [44]
具身智能,到了交卷的时刻了。。。
自动驾驶之心· 2025-07-06 11:10
具身智能行业动态 - 具身智能技术从概念验证进入量产阶段 多家公司正在推进商业化落地 如地瓜机器人演示的宇树Go2四足机器狗已展现实用化潜力 [2] - 行业竞争焦点从PR宣传转向技术可靠性 未来市场将更关注实际产品表现而非营销噱头 [2] 核心技术发展 - 感知能力升级聚焦多模态融合 触觉感知成为灵巧手领域突破重点 力控技术提升操作精细度30%以上 [4] - 大模型算法推动机器人认知进化 通过多模态数据训练提升自主学习与决策规划能力 轻量化模型设计需求迫切 需支持低算力跨平台部署 [4] - 仿真环境构建加速技术迭代 Sim2Real技术实现虚拟与现实数据对齐 物理世界建模覆盖光电气热等复杂变量 [4] - 本体形态多样化催生数据共通需求 需从双足/轮式等不同结构中抽象通用特征 [5] 技术社区生态 - 具身智能之心知识星球汇聚近200家头部企业与研究机构 包括斯坦福、清华等高校及优必选、小米等公司 [13] - 社区提供40+开源项目、60+数据集及主流仿真平台 覆盖强化学习、多模态大模型等16个技术方向 [13][18] - 行业资源包含30家研报汇总、零部件品牌库及国内外实验室名录 助力学术与产业对接 [17][20][22][26] 人才发展路径 - 自动驾驶与具身智能技术栈高度互通 视觉语言导航和DL-based SLAM成为转型热门方向 [69][72] - 行业处于探索期 对标自动驾驶2017-2018阶段 技术窗口期预计持续12-24个月 [72][73] - 职业转型建议优先选择头部厂商 薪资差异显著 初创公司总包可达70-80万但稳定性较低 [75] 技术应用案例 - 机械臂领域已实现LLM+MoveIt技术栈应用 需强化问题解决能力的项目包装 [68] - 仿真环境下推荐Isaac Sim框架延续项目 重点突破分层决策与端到端方案优化 [68][18] - VLM在机器人抓取规划中实现跨模态指令解析 需结合Transformer基础进行迁移 [69]
谷歌&伯克利新突破:单视频重建4D动态场景,轨迹追踪精度提升73%!
自动驾驶之心· 2025-07-05 21:41
核心观点 - 该研究提出名为"Shape of Motion"的技术,通过结合3D高斯撒点与SE(3)运动表示,实现单目视频动态场景的4D重建(3D空间+时间维度),在3D追踪精度上比现有方法提升73% [2][8][17] - 该方法具有实时新视角合成、全局一致3D追踪和处理复杂动态场景三大能力,可能彻底改变影视特效、游戏开发、自动驾驶等行业的工作流程 [4] - 技术采用3D高斯点作为场景表示基本单元,利用SE(3)运动基底表示场景运动,并整合单目深度图、长距离2D轨迹等数据驱动先验,形成全局一致的动态场景表示 [9][11][12] 技术细节 - 核心创新点包括:1) 低维运动表示 - 使用紧凑的SE(3)运动基底表示场景运动;2) 数据驱动先验整合 - 有效整合多种噪声监督信号 [9] - 每个3D高斯点参数包括规范帧中的3D均值、方向、尺度、不透明度和颜色,其运动轨迹通过共享的SE(3)运动基底表示 [10] - 优化过程采用双管齐下的损失函数:重建损失(包含RGB、深度和掩码约束)和运动约束(通过2D轨迹和刚性损失保持运动一致性) [13][14] 性能表现 - 在iPhone数据集上,3D追踪准确率(10cm阈值)达73.3%,比第二名高出10个百分点;2D追踪准确率达47%,新视角合成的PSNR指标达16.72 [17] - 在Kubric合成数据集上,3D追踪误差(EPE)低至0.16,比基线方法提升21% [20] - 硬件配置上,在A100 GPU上训练300帧视频仅需2小时,渲染速度可达40fps,实时性完胜传统NeRF方法 [14] 局限与展望 - 当前方法存在四大局限:1) 耗时优化 - 每场景需2小时训练;2) 视角局限 - 大视角变化时缺失生成能力;3) 相机依赖 - 纹理缺失场景可能失败;4) 人工干预 - 需用户标注运动物体掩码 [25] - 未来突破方向包括:1) 开发端到端前馈网络;2) 融入扩散模型处理大视角变化;3) 用SAM等模型实现全自动分割 [25] - 该研究突破了单目动态重建的三重边界:空间维度(全序列3D运动轨迹重建)、时间跨度(支持10秒以上长时运动追踪)和场景复杂度(处理多刚体运动的动态场景) [26]
最近才明白,智能驾驶量产的核心不止是模型算法。。。
自动驾驶之心· 2025-07-05 21:41
行业趋势与核心观点 - 智能驾驶量产开发进入深水区,模型算法是从0到10的关键,但从10到100的核心是海量自动标注数据[2] - 4D自动标注(3D空间+时间维度)成为行业刚需,人工精标因周期长、成本高难以满足量产泛化需求[2] - 端到端和LLM技术推动大规模无监督预训练+高质量数据集微调成为感知算法下一阶段方向[3] - 数据联合标注取代分开标注范式,适应智能驾驶算法发展需求[3] 4D自动标注技术难点 - 时空一致性要求高:复杂场景下动态目标跨帧标注易断裂[7] - 多模态融合复杂:需解决激光雷达、相机、雷达的坐标对齐和时延补偿[7] - 动态场景泛化难:交通参与者行为不确定性(如急刹)和环境干扰(如恶劣天气)增加挑战[7][8] - 效率与成本矛盾:高精度标注依赖人工校验,自动化算法在复杂场景精度不足[7] 动态障碍物标注流程 - 四大模块:离线3D目标检测、离线跟踪、后处理优化、传感器遮挡优化[5] - 主流方法:点云3D目标检测或激光-视觉(LV)融合提升检测性能[3] - 跟踪挑战:多帧串联时面临轨迹断裂、ID跳变等实际问题[4][11] 静态与OCC标注技术 - 静态标注依赖SLAM重建:通过全局clip道路信息避免单帧感知偏差[14] - OCC标注成行业标配:特斯拉Occupancy Network推动需求,需解决稠密化点云和跨传感器遮挡优化[15] 端到端标注与数据闭环 - 端到端真值生成整合动态障碍物、静态元素、可行驶区域和自车轨迹[16] - 数据闭环痛点:跨传感器/感知系统协同、场景泛化能力(如不同城市道路)[17][18] 技术应用与课程内容 - 课程覆盖动态障碍物检测、SLAM重建、静态/OCC标注、端到端全流程[8][11][14][15][16] - 实战案例:包括CVPR 2024的SAFDNet算法、DetZero时序后处理、DrivingGaussian闭环仿真[11][16] - 行业需求:数据驱动架构、标注算法性能验证、量产交付经验[17][18]