Workflow
自动驾驶之心
icon
搜索文档
又帮到了一位同学拿到了自动驾驶算法岗......
自动驾驶之心· 2025-08-23 22:44
行业发展趋势 - 自动驾驶行业面临结构性调整 出现裁员现象 从业者转向具身智能和大模型等热门方向[1] - 技术演进聚焦VLA(视觉语言动作模型)和端到端自动驾驶 这些方向被视为具有更高技术壁垒和转型潜力[1] - 行业技术栈快速扩展 涵盖多模态大模型 数据闭环4D标注 世界模型等前沿领域[2] 技术资源体系 - 自动驾驶之心社区建立完整技术体系 包含超过40个技术路线分类[2] - 社区资源覆盖从基础数学[3]到前沿VLA算法[40]的全栈技术内容 - 提供近60个自动驾驶数据集资源 包括NuScenes Waymo KITTI等主流数据集[16][25][33] 人才发展生态 - 社区成员规模超过4000人 目标两年内达到近万人[1] - 汇聚国内外知名高校和头部企业资源 包括上海交大 清华大学 CMU 蔚小理 华为 英伟达等机构[16] - 建立与多家自动驾驶公司的内推机制 提供岗位对接服务[7][30] 技术应用方向 - 端到端自动驾驶成为研究热点 涵盖量产方案 多模态融合 可解释性等细分方向[29][34] - 3DGS与NeRF技术在场景重建和闭环仿真领域获得重要应用[35] - BEV感知技术成熟度较高 已成为量产方案的基石[44] 社区服务内容 - 提供专业技术直播超过100场 涵盖VLA 3D检测 规划控制等前沿话题[58] - 建立完善的问答机制 解答从技术入门到职业发展的各类问题[61][62] - 整合求职资源 包括实习 校招 社招岗位分享和内推服务[30]
聊一聊多模态的交叉注意力机制
自动驾驶之心· 2025-08-23 00:04
交叉注意力在多模态任务中的核心作用 - 交叉注意力机制使一种模态能够主动查询另一种模态的信息,实现跨模态交互,而非简单拼接特征[1] - Query代表主动查询方,Key/Value代表被动提供信息方,二者来自不同模态来源[2] - 该机制适用于图文匹配、视觉问答、视频理解和语音-图像结合等多种多模态任务[1] 四种主要设计方式及其特点 - 单向交叉注意力采用单向信息流,仅更新查询方特征,适合信息检索类任务,计算简单但信息交互不对等[3][4] - 双向交叉注意力实现双方互相更新,先文本问图像再图像问文本,信息交互充分但计算量翻倍,适用于视觉问答和跨模态推理[5][6] - 多轮交替堆叠通过多层交替执行双向注意力,实现细粒度对齐,代表模型包括ViLBERT和LXMERT,虽延迟较高但跨模态对齐能力更强[8][9] - 自注意力与交叉注意力混合先在模态内部进行自注意力计算,再进行跨模态交互,该设计被UNITER和CLIP等主流多模态模型采用[11][12] 关键技术实现细节 - 特征对齐通过线性投影将不同维度特征映射到统一维度(如512维),解决文本768维与图像1024维的维度不匹配问题[13] - 注意力掩码机制可限制无关token或图像区域的注意力计算,避免标点符号或背景区域等噪声干扰[17] - 融合策略包括拼接、加权求和和共空间映射三种主要方式,加权融合通过门控参数动态调整双方贡献度[20][27][28] 实际应用与性能优化 - PyTorch实现提供从基础多头注意力到多层编码器的完整架构,支持批处理维度优先(batch_first=True)和多种掩码机制[21][31] - 轻量级检索任务只需单向交叉注意力,深度推理任务则需要双向或多轮交替注意力[37] - 计算优化可通过前几层仅做自注意力、最后几层做交叉注意力的方式实现提速[37]
ICCV'25!清华GS-Occ3D:纯视觉规模化Occ重建,自动标注新范式~
自动驾驶之心· 2025-08-23 00:04
研究背景与动机 - L4级自动驾驶商业化浪潮到来,特斯拉Robotaxi落地运营、小马智行和文远知行成功上市、百度萝卜快跑快速扩张,标志着行业迈向大规模部署 [3] - 占据栅格(Occupancy)作为感知核心提供关键几何先验,但主流标注方法严重依赖激光雷达,成本高昂且难以扩展 [3][6] - 消费级车辆众包数据无法被现有激光雷达依赖方案有效利用,行业亟需低成本可规模化的自动标注新范式 [3][7] 技术方案创新 - 提出基于八叉树的高斯面元场景表示方法,整合地面、背景和动态物体实现纯视觉规模化几何重建 [7][13] - 通过逐帧划分和多帧聚合提升点云密度,显式处理相机视角遮挡问题 [13] - 采用5摄像头输入配置,在增加更多视角时性能不会下降,而其他方法可能出现性能衰减 [25][29] - 直接重建点云的方式对该任务更合适且更具可扩展性 [25] 性能表现 - 在Waymo数据集实现SOTA几何重建结果:倒角距离(CD)仅0.56,PSNR达到26.89,训练时间仅0.8小时,GPU显存占用10GB [15] - 在Occ3D-Waymo验证集上取得IoU 44.7和F1分数61.8,与激光雷达方案结果相当 [16] - 在Occ3D-nuScenes上展示优越的零样本泛化能力:IoU 33.4 vs 激光雷达方案的31.4,F1分数50.1 vs 47.8 [16][17] - 重建语义类别达到66类,远超Occ3D的16类,能识别摩托车、车道线和人行横道等对驾驶至关重要的语义信息 [32] 竞争优势 - 成本效益显著高于激光雷达方案,可利用消费级车辆众包数据进行自动标注 [3][10] - 在弱纹理区域展现更高重建保真度,结构完整性媲美激光雷达点云 [20] - 具备更广的空间覆盖范围,特别是在重建高层建筑时性能甚至超越激光雷达 [32] - 在恶劣天气条件下潜力更大,能利用图像域丰富的纹理和语义信息进行有效重建 [33] 应用前景 - 为无先验信息的占据栅格模型训练提供可靠监督信号 [22] - 凸显大规模纯视觉占据栅格重建技术作为感知新范式的巨大潜力 [36] - 可服务于下游占据栅格模型训练,使模型能够泛化到未见过的场景并具备几何推理能力 [13] - 为行业提供低成本、可规模化的自动标注解决方案,推动自动驾驶技术大规模部署 [3][10]
自动驾驶之心VLA技术交流群成立了(数据/模型/部署等方向)
自动驾驶之心· 2025-08-23 00:04
技术交流群成立 - 自动驾驶之心大模型VLA技术交流群正式成立,专注于VLA相关技术交流 [1] - 交流内容涵盖VLA数据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地及求职等领域 [1] - 感兴趣者可添加小助理微信AIDriver005,备注昵称+VLA加群以加入交流群 [1]
博世拿到某新能源重卡的智驾定点
自动驾驶之心· 2025-08-23 00:04
博世商用车智驾订单突破 - 博世近期获得某头部新能源重卡的智驾定点 涵盖三大车型平台和国内外上百款车型 包括牵引车、搅拌车、自卸车等[5] - 该订单为商用车领域的超级订单 标志着博世在商用车智驾市场的重要突破[5] - 招标竞争非常激烈 国内主要商用车智驾公司均参与 博世经过多轮PK最终胜出[5] 市场竞争格局 - 博世在竞标中击败了该头部新能源重卡长期合作的两家智驾供应商 凭借销售端的不懈努力获得定点[5] - 博世今年连续斩获重要大客户 积极进攻商用车智驾市场[5] - 低阶ADAS领域竞争激烈 供应商陷入"血卷"状态 而高阶NOA领域因技术门槛高 供应商较少 属于蓝海市场[6] 商用车智驾市场现状 - 商用车智驾搭载率极低 2024年仅有总销量的一到两成 远低于乘用车水平[5] - 技术层面以低阶ADAS为主 多数仅具备简单双预警功能 相比乘用车的高速和城区NOA落后数代[5] - 政策驱动的AEB强标为商用车智驾普及提供契机 头部企业积极引入智驾供应商[6] 市场发展机遇 - 商用车智能化转型全面提速 带来重大市场机会[5] - 2024年商用车智驾迎来集中性放量 大订单和超级订单频繁出现[6] - 目前放量项目主要集中在低阶ADAS领域 以AEB功能为主[6]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 20:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
高校博士生人数增加60w,安家费逐渐被取消......
自动驾驶之心· 2025-08-22 20:00
行业趋势分析 - 博士生人数暴涨60万但高校岗位未增加 高校安家费可能从2025年起逐步取消并转向成果补贴和高层次人才补贴模式[1] - 学术就业市场竞争加剧 高质量研究成果成为获取补贴的关键因素[1] 市场需求洞察 - 计算机专业硕博研究生存在普遍痛点 包括导师放养 缺乏科研思路 写作结构混乱 实验数据出错等问题[2][10] - 科研人员需求覆盖多个维度 包括论文创新思路获取 科研经验积累 职称提升 升职加薪和申博留学等场景[10] 服务产品定位 - 提供全流程一站式1v1论文辅导服务 从确定选题到投稿返修直至论文中稿[1][9] - 辅导范围覆盖CCF-A/B/C类会议 SCI1-4区期刊和EI会议等多个学术发表渠道[9] 运营数据表现 - 已联手200+全球QS排名前100院校导师 近3年辅导学员超过400名[1] - achieved高达96%的中稿率 展现显著服务效果[1] 服务特色优势 - 提供精准导师匹配系统 从300+导师中筛选3-5位最契合人选[15] - 配备班主任全程督学 跟进学习进度 确保服务连续性[14] - 支持零基础学员 通过基础课程和文献带读 6个月可完成一篇小论文[14] 附加价值创造 - 优秀学员可获得清北/MIT等名校推荐信及实验室实习机会[16] - 表现突出者可直接内推至阿里达摩院 华为诺亚方舟等企业研发岗位[16] - 提供预收定金后的名师meeting服务 不满意可免费更换或退款[16]
从最初的2D方案到当前的VLA大框架,一代又一代的自驾路线是怎么样演变的?
自动驾驶之心· 2025-08-22 12:00
社区定位与愿景 - 社区致力于让AI与自动驾驶技术普及化 成为连接企业与高校的桥梁 [1] - 社区见证自动驾驶技术从早期2D方案演进至VLA大框架 具备深厚行业积累 [1] - 目标构建涵盖产业、学术、求职、问答的完整闭环生态 日均进行运营复盘以优化服务 [1] 技术资源体系 - 梳理超过40种技术路线 覆盖VLA benchmark、行业应用咨询及学习路线 [1] - 汇总近40个开源项目与近60个自动驾驶数据集 包括NuScenes、KITTI、Lyft L5等主流数据集 [12][17] - 提供数学基础、计算机视觉、深度学习、编程等超20类学习资料 包含斯坦福等顶尖院校课程课件 [4][20] - 整合超过14种仿真框架(如Carla、Apollo、Autoware)和6种后端仿真工具 支持3DGS/NeRF闭环仿真 [4][19] 专家与行业网络 - 邀请数十位来自产业界与学术界的一线专家 涵盖顶会常驻嘉宾及企业技术领袖 [1] - 社区成员覆盖上海交大、清华、CMU、ETH等国内外300余家机构 以及蔚小理、华为、英伟达、Momenta等头部企业 [12] - 建立与多家自动驾驶公司的内推机制 直接对接岗位需求与人才简历 [6] 核心技术覆盖领域 - **感知技术**:包含2D/3D目标检测、鱼眼感知、BEV感知、多传感器融合等超15个子领域 [4][21] - **规划控制**:涵盖基于搜索/采样/数值优化的规划框架 以及横纵解耦/联合规划方案 [12][21] - **前沿方向**:深度布局端到端自动驾驶、世界模型、VLA(视觉语言动作模型)、扩散模型等新兴领域 [4][34][44] - **工程落地**:提供模型压缩、部署优化、CUDA加速实战及Orin芯片部署等实战内容 [7][21] 内容服务形式 - 提供超100场专业直播 分享主题涵盖VLA模型、3D检测基座模型、安全架构等前沿议题 [86] - 开设"自动驾驶100问"系列专题 覆盖TensorRT部署、毫米波雷达融合、BEV感知等核心难题 [4] - 支持24小时内技术问答反馈 并提供开源代码方案与工业级圆桌讨论资源 [1][16] 职业发展支持 - 分设实习/校招/社招岗位专区 内推岗位涵盖感知算法、端到端模型、模型优化等方向 [7][22] - 提供职业规划咨询 包括博士研究方向选择、企业跳槽建议及技术栈升级路径 [16][21]
端到端全新范式!复旦VeteranAD:"感知即规划"刷新开闭环SOTA,超越DiffusionDrive~
自动驾驶之心· 2025-08-22 07:34
核心观点 - 提出"感知融入规划"新范式 将感知过程直接嵌入规划中 实现更全面和针对性的感知[5] - 设计VeteranAD框架 通过多模态锚定轨迹作为规划先验 引导感知模块预测关键交通元素[5] - 采用自回归策略逐步生成未来轨迹 每个时间步都结合针对性感知结果进行优化[5] - 在NAVSIM和Bench2Drive数据集上达到最先进性能 NAVSIM的PDM Score达到90.2[12][21] 技术架构 - 规划感知整体感知模块:在图像特征、BEV特征和交通体特征三个维度进行交互 实现对车辆、车道和障碍物的全面理解[6] - 局部自回归轨迹规划模块:以自回归方式解码未来轨迹 逐步调整锚定轨迹并结合感知结果优化[6] - 使用多模态轨迹查询 由锚定轨迹初始化 锚定轨迹从真实规划轨迹中聚类得到[14] - 采用位置引导的图像交叉注意力、BEV交叉注意力和交通体交叉注意力机制[15] 性能表现 - NAVSIM数据集:PDM Score达到90.2 显著优于UniAD的83.4和DiffusionDrive的88.1[21] - Bench2Drive开环评测:平均L2误差为0.60 优于所有基线方法[24] - Bench2Drive闭环评测:驾驶分数64.22 成功率33.85% 与DriveTransformer性能相当[25] - nuScenes数据集:平均L2位移误差降低0.10米 碰撞率减少27.2%[31] 方法优势 - 自回归解码相比非自回归方法性能更优 PDMS从88.6提升到90.2[30] - 三种注意力机制结合效果最佳 移除BEV注意力影响最大 PDMS下降1.1[28] - 训练时间约8小时 推理延迟22.3毫秒 与DiffusionDrive效率相当但性能更优[33] - 在复杂场景如车辆并入道路时能有效减速避让 避免碰撞[36] 行业背景 - 端到端自动驾驶将感知、预测和规划统一到框架中 避免多阶段信息损失[8] - 主流方法采用"感知-规划"顺序范式 而VeteranAD创新性地采用"感知融入规划"范式[3][5] - 早期基于规则的方法存在误差传播和有限场景覆盖问题 端到端方法逐渐取代模块化设计[8] - 闭环评估模拟完整反馈回路 开环评估在离线数据集测试轨迹预测[9]
实测DeepSeek V3.1:不止拓展上下文长度
自动驾驶之心· 2025-08-22 07:34
核心观点 - DeepSeek V3.1相比V3版本在多个维度实现性能提升,包括上下文长度扩展至128K、编程能力增强、写作风格更人性化、数学问题解答更清晰、翻译准确性提高,但在部分细节处理(如冷门知识回答)仍存在瑕疵 [1][3][9][13][22][25][30][37] - 模型在非推理任务中达到SOTA水平,例如在aider测试中得分71.6%,优于Claude Opus 4且成本低68倍,同时在SVGBench基准测试中表现优于其他变体 [43][44] - 用户可通过多种渠道访问模型,包括Hugging Face平台、网页端、APP及小程序,且API调用成本具竞争力(输入0.004元/千Token,输出0.016元/千Token) [8][10] 技术规格更新 - 上下文长度从65K扩展至128K,最大输入98,304 Token,支持多种张量格式 [1][10] - 思维链长度提升至32,768 Token,最大回复长度16,384 Token,较V3版本(8,192 Token)翻倍 [10] - 模型参数量为685B(满血版),较V3的671B略有增加 [10] 性能测试结果 编程能力 - V3.1代码生成更全面,增加异常处理(如检查GIF格式)、依赖库安装说明及命令行使用指南,而V3仅提供基础压缩代码 [13][14] - 实测中V3代码压缩18.3MB文件后仍超10MB需二次压缩,V3.1直接满足要求但输出GIF速度略慢 [15][18] 写作与翻译 - 写作风格从V3的理性平铺直叙变为V3.1的诗意表达,更贴近人类情感化输出 [22] - 翻译长难句能力提升(V3.1减少括号补充说明),但存在简单词漏译(如"several") [30] 数学与冷门知识 - 双曲线离心率问题(答案为2√2)两者均正确,但V3.1展示完整推导过程(含公式$$e=\sqrt{1+\frac{b^2}{a^2}}$$) [25][26] - 冷门知识问答中两者均错误判断构树果实为核果(实际应为瘦果),且V3.1出现中英文混用("conclusion")及回答偏题 [31][37][38] 市场反馈与基准表现 - Hugging Face热度升至第二,Reddit测试显示aider得分71.6%为非推理模型SOTA,成本仅为Claude Opus 4的1/68 [41][42][43] - SVGBench基准中V3.1得分53.1%优于思考版本(47.8%)及R1-0528(40.4%),但低于领先模型(如horizon-beta 67.4%) [44] - 用户报告新增特殊Token及自动搜索功能,物理理解能力(如动态GIF生成)有所提升 [45][47]