Workflow
自动驾驶之心
icon
搜索文档
数据闭环的核心 - 静态元素自动标注方案分享(车道线及静态障碍物)
自动驾驶之心· 2025-06-26 21:33
4D自动标注技术发展 - 轻图算法量产已成为行业共识 公司通过标注数据训练云端模型 再反哺车端模型迭代 实现全场景静态元素标注[1] - 传统2D图像标注需逐帧标注 效率低下 3D场景重建技术可实现静态元素单次标注 显著提升效率[2][3] - 行业采用BEV视图转换技术 通过自车位姿滑动窗口截取局部地面重建图 优化云端自动标注模型训练流程[6] 技术难点与解决方案 - 4D自动标注面临时空一致性要求高 多模态数据融合复杂 动态场景泛化难度大等五大核心挑战[7] - 静态元素标注需结合SLAM重建输出 获取全局道路信息 避免单帧感知导致的道路偏差问题[14] - 通用障碍物OCC标注成为行业标配 需解决点云稠密化 噪声优化 跨传感器遮挡等工程难题[15] 技术应用与课程体系 - 端到端真值生成整合动态障碍物 静态元素 可行驶区域等模块 采用一段式和两段式实现方案[16] - 数据闭环专题涵盖scaling law验证 主流公司架构分析 跨系统问题解决等实战经验[18] - 课程体系覆盖动态障碍物检测跟踪 SLAM重建原理 OCC标注全流程等六大核心模块[8][11][12][15][16] 行业人才需求 - 课程目标群体包括高校研究人员 企业技术骨干 转行人员等 需具备深度学习和PyTorch基础[22][24] - 课程培养方向聚焦4D标注算法研发能力 实际问题解决能力 工作竞争力提升三大维度[23]
清华大学最新综述!当下智能驾驶中多传感器融合如何发展?
自动驾驶之心· 2025-06-26 20:56
具身AI与多传感器融合感知的重要性 - 具身AI是以物理实体为载体,通过实时感知实现自主决策和行动能力的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径 [2] - 传感器数据理解是连接物理世界与数字智能的核心环节,具身智能体需要融合视觉相机、毫米波雷达、激光雷达(LiDAR)、红外相机和IMU等多模态传感器数据以实现全景感知 [2] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大幅衰减 [2] 现有研究的局限性 - 当前基于AI的MSFP方法在具身AI中面临跨模态数据的异质性使得特征空间难以统一的挑战 [3] - 不同传感器之间的时空异步可能导致融合误差,传感器故障(如镜头污染、信号遮挡)可能导致多模态信息的动态丢失 [3][4] - 现有综述大多面向单一任务或研究领域,如3D目标检测或自动驾驶,缺乏对多智能体融合、时间序列融合等MSFP方法多样性的考虑 [4] 传感器数据 - 相机数据可捕捉物体的颜色、形状和纹理等丰富外观特征,但对光照条件敏感,在夜间和恶劣天气下图像质量显著下降 [7] - 激光雷达(LiDAR)数据直接输出包含空间几何信息的高精度3D点云,在3D感知中具有独特优势,但对天气敏感且点云数据稀疏不均匀 [7] - 毫米波雷达数据在恶劣天气下性能良好,可直接测量物体速度,但点云更稀疏难以准确描述物体轮廓 [10] 数据集 - KITTI包含14,999张图像及相应点云,数据采集车辆配备两台灰度相机、两台彩色相机、一个Velodyne 64线LiDAR等设备 [13] - nuScenes包括700个训练场景、150个验证场景和150个测试场景,总计5.5小时,包含140万张相机图像、39万次LiDAR扫描 [13] - Waymo Open包括感知和运动数据集,感知数据集中的注释包括126万个3D边界框、118万个2D边界框 [14] 感知任务 - 目标检测是通过传感器获取的数据准确定位和识别各种类型的物体,在3D目标检测场景中需包括目标的3D位置坐标、尺寸信息和航向角 [16] - 语义分割任务旨在将场景中的每个基本单元分类为语义类别,分割模型需要为每个基本单元分配相应的语义标签或类别概率分布 [16] - 深度估计旨在从传感器数据中获取场景的深度信息,为具身智能体提供3D几何理解,对路径规划和决策控制等下游任务至关重要 [16] 多模态融合方法 - 点级融合方法实现LiDAR点云与图像数据在单个点级别的特征融合,通过集成点云的几何坐标信息与图像的语义细节提高多模态感知精度 [21] - 体素级融合方法将不规则的LiDAR点云转换为规则网格,在保留几何信息的同时实现高效处理,相机图像被集成到基于体素的方法中以获得更好的感知能力 [23] - 区域级融合方法侧重于从2D图像和其他模态聚合特定区域的信息,在模态之间的空间对齐更容易实现的场景中特别有效 [28] 多智能体融合方法 - 协作感知技术可以集成来自多个智能体和基础设施的感知数据,对解决遮挡和传感器故障问题至关重要 [34] - CoBEVT是第一个通用的多智能体多相机感知框架,通过稀疏Transformer生成BEV分割预测以进行协作处理 [34] - V2VNet引入了一个基于图神经网络的框架,用于融合来自多辆车的中间特征表示 [35] 时间序列融合 - 密集查询方法为高分辨率3D空间或BEV空间中的每个查询点分配固定的光栅化空间位置,BEVFormer通过可变形注意力机制实现多个相机视图中的自适应特征交互 [44] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而在行业中越来越受欢迎,StreamPETR通过对象查询系统地在帧间传播长期信息 [47] - 混合查询方法结合密集和稀疏查询范式,以平衡计算效率和全面的场景理解,UniAD将感知、预测和规划集成在一个统一的框架中 [51] MM-LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,X-Driver利用具有思维链推理和自回归建模的多模态大型语言模型实现卓越的闭环自动驾驶性能 [57] - 视觉-LiDAR-语言方法将点云特征与文本特征对齐,DriveMLM采用时间QFormer处理多视图图像,有效捕捉不同视角之间的时间动态和空间关系 [59] - MAPLM将3D LiDAR点云数据投影到BEV图像,并通过视觉编码器提取特征,使强大的视觉模型的使用成为可能 [60]
等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
自动驾驶之心· 2025-06-26 20:56
特斯拉Robotaxi服务启动 - 特斯拉在德克萨斯州奥斯汀正式启动自动驾驶出租车服务,兑现马斯克十年前的承诺[1] - 首批乘客支付固定价格4.2美元即可搭乘,并可选择支付小费[2][4] - 服务目前处于限定试运营阶段,仅限受邀用户使用,主要为知名社交媒体博主和科技内容创作者[7][8] 运营规模与范围 - 试运营投入10-20辆贴有Robotaxi标识的Model Y车辆[8] - 服务覆盖区域严格限制在特斯拉已绘制地图的地理围栏区域内,边界为科罗拉多河至Zilker公园范围[8] - 运营时间为每天6点至午夜12点,避开恶劣天气和复杂场景[8] - 计划未来几个月内将Robotaxi数量扩大至上千辆[25] 技术实现与安全保障 - 车内配有安全监控员,可紧急接管车辆[14] - 在某些情况下安排跟车车辆和远程驾驶员作为额外保障[15] - 默认不启用车内摄像头,仅在乘客请求或紧急情况下使用[15] - 自动驾驶部门实时监控多辆robotaxi的车载摄像头画面[23] 用户体验反馈 - 大部分行程表现平稳,能应对日常城市驾驶情境,车速控制在40英里/小时以下[18] - 车内乘客显示屏功能类似网约车应用,配有开始行程按钮和音乐App集成[19] - 部分情况下需要远程操作员介入,平均响应时间约两分钟[20] - 初期存在App推送缓慢、上车点定位不清晰等问题[22] 行业竞争格局 - Waymo已在多个城市运营超过1500辆无人车,计划2026年前扩大至2000辆[25] - 特斯拉计划将服务扩展至加州等高监管门槛地区[25] - 自动驾驶行业竞争加剧,特斯拉需验证后发先至能力[26]
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 20:56
自动驾驶技术平台 - 自动驾驶之心是国内领先的自动驾驶技术交流平台 [1] - 平台关注自动驾驶前沿技术、行业动态及职场成长 [1] - 平台覆盖具身智能、视觉大语言模型、世界模型等前沿技术方向 [1] - 涉及端到端自动驾驶、扩散模型、车道线检测等核心技术 [1] - 包含2D/3D目标跟踪、检测、BEV感知等多模态感知技术 [1] - 涵盖多传感器融合、transformer、大模型等AI技术 [1] - 涉及点云处理、在线地图、SLAM等空间感知技术 [1] - 包含光流估计、深度估计、轨迹预测等环境理解技术 [1] - 覆盖高精地图、NeRF、Gaussian Splatting等建模技术 [1] - 涉及规划控制、模型部署落地等应用技术 [1] - 包含自动驾驶仿真测试、产品经理、硬件配置等产业环节 [1] - 提供AI求职交流等职业发展支持 [1]
最近,一些自驾公司疯狂往一线『输送』人才。。。
自动驾驶之心· 2025-06-26 20:56
自动驾驶行业现状 - 多家自动驾驶公司面临营收压力,开始裁员或将研发人员转岗至销售一线[2][3] - 部分公司对入职不足1年的校招生也采取了裁员措施[2] - 行业普遍存在"输出一线"策略,即将研发人员转岗销售,这被视为变相裁员手段[3] - 下半年新车集中发布,若销量不及预期可能引发新一轮裁员潮[4] 行业人才发展建议 - 被裁人员应专注技术积累期,避免急于求职造成心理压力[6] - 建议利用空窗期学习新技术栈,关注市场需求旺盛的岗位方向[6] - 转岗销售一线的技术人员建议骑驴找马,利用在职时间准备跳槽[7] - 行业提供内推渠道帮助技术人员对接合适岗位[7] 自动驾驶技术前沿 - 视觉大语言模型领域涌现多篇CVPR 2024论文,涵盖预训练、迁移学习等方向[15][16] - 世界模型在自动驾驶中的应用成为研究热点,2024-2025年有多篇相关论文发表[33][34] - 扩散模型在自动驾驶视频生成、3D视觉等领域应用广泛,已有20+篇综述论文[36][38] - 端到端自动驾驶成为主流研究方向,两大GitHub仓库汇总了最新研究成果[43][46] 自动驾驶数据集 - 视觉语言预训练数据集规模从1M到12B不等,涵盖多语言场景[19] - 自动驾驶专用数据集包括KITTI、Cityscapes、nuScenes等,涵盖2D/3D目标检测等任务[25] - 语言增强的自动驾驶数据集聚焦视觉-语言导航、车辆检索等新兴方向[26] - 评估数据集覆盖图像分类、目标检测、语义分割等多项任务[20][23][24] 技术应用领域 - 智能交通领域主要研究语言引导的车辆检索和视觉问答系统[27] - 自动驾驶感知方向聚焦行人检测、3D目标检测等任务[28] - 定位规划领域探索语言引导导航和轨迹预测技术[29] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[30] - 端到端自动驾驶整合感知、预测、规划全流程[31]
硕士毕业论文写不出来了怎么办?
自动驾驶之心· 2025-06-26 20:56
文章核心观点 - 公司针对自动驾驶、具身智能、机器人领域的学术论文发表难题,提供专业辅导服务,帮助学生高效完成高质量论文并提升录用概率 [2][3][4] - 公司拥有顶尖学术资源和导师团队,覆盖论文全流程辅导,中稿率高达96% [3][8][9] 公司背景与资源 - 国内最大的AI类技术自媒体平台,旗下拥有自动驾驶之心/具身智能之心/3D视觉之心等IP [3] - 300+专职导师来自全球QS前100高校,发表过多篇顶会/子刊/A会/B会论文 [3] - 近3年辅导学员超400名,中稿率96% [3] 服务内容与方向 - 覆盖本科生课程论文至博士生顶会投稿的全阶段需求 [4] - 辅导方向包括自动驾驶(端到端、BEV感知等)、具身智能(VLA、强化学习等)、机器人(SLAM、决策规划等) [5] - 提供选题开题、实验设计、写作修改、投稿策略等全流程服务 [12] 服务优势 - 领域聚焦自动驾驶/具身智能/机器人,深度理解技术细节与评审标准 [5] - 1对1精准匹配导师,定制化研究策略 [7][9] - 导师团队拥有顶会发表经验,熟悉审稿流程 [8] 解决的核心问题 - 选题创新性不足、文献梳理低效、实验失败率高、写作逻辑混乱、投稿被拒等 [13][15] - 提供清晰科研路径、突破性思路、高效解决方案及顶级写作支持 [15]
刚刚,何恺明官宣新动向~
自动驾驶之心· 2025-06-26 18:41
何恺明职业动态 - AI领域顶尖学者何恺明正式入职谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授身份[1][3][4] - 此次跨界标志着何恺明实现"学界+业界"双轨并行发展模式[5][12] - DeepMind联合创始人Demis Hassabis曾预测AGI将在5-10年内实现,何恺明的加入将加速该目标[7][8] 学术成就与技术贡献 - 提出深度残差网络(ResNet)成为现代AI模型基石,相关论文在2016-2021年连续三年位居谷歌学术全领域被引榜首[18][19] - 开发的Faster R-CNN和Mask R-CNN是物体检测领域被引量最高的论文之一,分别被引用91993次和45582次[19][21][24] - 论文总被引量达713370次,h-index指数71,近五年被引量597873次[18][19] 近期研究成果 - 2024年与Yann LeCun合作提出无归一化层Transformer,仅用9行代码实现,成果被CVPR 2025收录[33][34] - 2024年2月提出分形生成模型,将像素级图像生成计算效率提升4000倍[36][37] - 2024年5月联合CMU团队开发MeanFlow框架,实现无需预训练的一步生成建模[38][39] 职业经历与教育背景 - 曾任职微软亚洲研究院(2011-2016)和Meta FAIR实验室(2016-2023)[12][32] - 2007年获清华大学学士学位,2011年获香港中文大学博士学位[29][30] - 2009年成为首位获得CVPR最佳论文奖的中国学者,累计获得4次国际顶会最佳论文奖[24][27]
重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型
自动驾驶之心· 2025-06-26 18:41
点击下方 卡片 ,关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 由无界智慧(Spatialtemporal AI)团队推出的A0模型,是首个基于空间可供性感知的通用机器人分层扩散 模型,通过具身无关的可供性表征 (Embodiment-Agnostic Affordance Representation) 实现了跨平台的通 用操作能力,模型框架和代码等已经开源。 论文链接:https://arxiv.org/abs/2504.12636 项目主页:https://a-embodied.github.io/A0/ 机器人操作面临的核心挑战 在机器人技术快速发展的今天,通用化操作能力始终是制约行业发展的关键瓶颈。想象一下,当你让机器 人"擦干净白板"时,它需要准确理解应该在何处施力("where"),以及如何移动抹布("how")。这正是 当前机器人操作面临的核心挑战——空间可供性感知理解不足。 现有方法主要分为两类:基于模块化的方法和端到端的视觉-语言-动作(VLA)大模型。前者虽然能利用视 觉基础模型进行空间理解,但对物体可供性的捕捉有限;后者虽能直接生成动作,却缺乏对空间 ...
正在筹划一个万人的自动驾驶&具身技术社区~
自动驾驶之心· 2025-06-25 17:54
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位行业专家加入[2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 知识星球核心功能 - 提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等全技术栈[11][16] - 每周1-2场行业直播,年计划100场,聚焦VLA、大模型等前沿方向[18][19] - 建立与40+企业的内推渠道,包括小米汽车、地平线、英伟达等头部公司[4] 2025年技术趋势 - 大模型赋能的端到端2.0技术VLA将成为主流,整合视觉大语言模型与轨迹预测[6] - 关键技术包括3DGS生成技术、世界模型及扩散模型的应用[6][38] - 技术迭代周期持续缩短,行业进入快速创新阶段[6] 技术资源体系 - 汇总50+视觉大语言模型(VLM)的预训练方法与评估数据集[26][27] - 整理自动驾驶专用数据集如nuscenes、Waymo Open Dataset等31种[31] - 收录扩散模型在自动驾驶领域的47项最新应用成果[47] 行业应用案例 - 智能交通领域采用语言引导的车辆检索系统,提升多模态交互能力[33] - 自动驾驶感知模块整合VLM技术,实现开放词汇目标检测[34] - 规划控制领域探索GPT-Driver等大模型直接生成驾驶轨迹[35] 人才发展支持 - 推出"自动驾驶求职100问"系列,覆盖BEV感知、Occupancy等热点方向[69] - 提供从算法讲解到代码实现的完整学习路径,支持小白快速入门[11] - 社区成员来自全球顶尖高校和头部企业,形成高质量技术交流网络[114]
SOTA端到端算法如何设计?CVPR'25 WOD纯视觉端到端比赛Top3技术分享~
自动驾驶之心· 2025-06-25 17:54
CVPR2025 WOD纯视觉端到端比赛结果 - 冠军方案来自EPFL团队,采用DiffusionDrive框架,结合nuPlan数据集和集成策略 [1] - 亚军方案由Nvidia & Tubingen团队提出,参考DiffusionDrive和SmartRefine,使用4个不同数据集并验证训练数据顺序的重要性 [1] - 季军方案来自韩国汉阳大学,采用简洁结构设计,仅使用前视图+自车状态输入 [1] - 特别奖方案使用QWen2 5-VL大模型生成CoT数据,在3B模型上训练 [1] 比赛背景与数据集 - 比赛聚焦长尾驾驶场景评估,包含4021个20秒驾驶片段,其中2037个用于训练 [2] - 参赛者需使用8个周围摄像头数据,在鸟瞰图坐标系下预测5秒路径点轨迹 [2] - 评分主要采用"评分反馈得分"(RFS),"平均位移误差"(ADE)作为平局判定标准 [2] 季军方案技术细节 - 采用极简主义设计Swin-Trajectory,仅使用单前置摄像头和自车历史信息 [41] - 基于Swin Transformer骨干网络,在RTX 4090上实现14ms推理速度 [41] - 使用三维位置编码为密集图像特征提供几何基础 [44] - 通过交叉注意力机制融合图像特征与路径点查询 [46] 亚军方案技术亮点 - 提出Open-X AV(OXAV)框架整合多种AV数据集 [22] - 采用两阶段训练流程:感知导向数据预训练+规划导向场景后训练 [26] - 使用ResNet34骨干网络,仅需单块A100 GPU训练一天 [26] - 模型集成显著提升RFS评分,证明聚合多个模型预测的优势 [37] 行业技术趋势 - 端到端自动驾驶方法展现出替代传统模块化架构的潜力 [2] - 跨数据集学习成为提升模型泛化能力的重要方向 [26] - 轻量化模型设计在保持性能的同时降低计算成本 [41] - 扩散模型在轨迹生成领域展现出高效性和多样性优势 [4]