自动驾驶之心

搜索文档
Tier 1一哥博世端到端终于走到量产,还是一段式!
自动驾驶之心· 2025-08-31 00:03
文远知行一段式端到端ADAS解决方案 - 文远知行发布一段式端到端ADAS解决方案WePilot AiDrive 年内量产上车[5][9] - 方案采用单一模型从传感器数据输入端直接输出行车轨迹 实现更短路径、更快反应和更高容错率[10][24] - 与博世合作量产 目标是将高阶智能辅助驾驶能力普及到各价位车型[8][41][44] 技术优势与实测表现 - 在广州城区道路实测中 系统在城中村复杂场景(行人、电动车、临时修路)下表现稳定[11][12] - 夜间逆光环境下成功识别横穿马路行人并及时避让[14] - 变道路线规划平顺 无保护转弯场景下能兼顾行车效率与安全性[16][19][21] - 隧道光照不佳时保持安全跟车距离的同时快速超越慢车[23] 与传统端到端方案差异 - 传统方案采用感知与规控分离的双模型架构 存在数据传递损失和规则依赖问题[27][29][30] - 新方案直接学习输入数据与输出轨迹的映射关系 通过强化学习迭代提升性能[33] - 摆脱规则依赖 避免系统泛化性低和驾驶逻辑不一致的问题[32] 技术实现与行业意义 - 采用通用AI司机基座大模型 复用L4级Robotaxi算法和数据训练架构[33] - 系统延迟需满足10Hz实时性要求 当前VLA方案在1000TOPS算力下延迟达530ms(约2Hz)[39][40] - 中国市场标配高阶智驾车型占比不足20% 方案旨在推动L2+越过价值拐点[42][44] - 技术目标为实现L4与L2架构统一 消除地理围栏限制[35]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-31 00:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
决定了!还是冲击自动驾驶算法
自动驾驶之心· 2025-08-30 12:03
自动驾驶行业人才需求与就业趋势 - 自动驾驶算法岗位薪资在AI行业中属于顶薪水平 特别是端到端、VLA和强化学习等方向[1] - 行业存在大量人才需求 主机厂和Tier 1企业积极招聘优秀人才攻坚L3/L4级别量产难题[1] - 具身智能领域热度上升 部分从业者转向机器人赛道 但自动驾驶行业仍需更多专业人才[1] 自动驾驶之心知识社区生态 - 社区成立三年 已发展成集视频、图文、学习路线、问答和求职交流的综合型平台[1] - 当前社区规模超过4000人 目标两年内达到近万人规模[1] - 社区提供40+技术路线梳理 涵盖端到端自动驾驶、VLA benchmark等前沿方向[2][5] - 邀请数十位产业界和学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖[2] 技术研究方向与资源汇总 - 汇总近40个自动驾驶技术方向 包括BEV感知、扩散模型、世界模型等核心领域[5][13] - 整理近60个自动驾驶数据集 包含多模态大模型预训练数据集和VLA微调专用数据集[13][30] - 提供100问系列专业解答 包括TensorRT部署、毫米波雷达融合等工程实践问题[6] - 开源项目覆盖3D目标检测、闭环仿真3DGS、自动驾驶大模型等关键领域[29] 行业培训与学术交流 - 开设全栈方向学习课程 专门针对0基础入门者设计[7][9] - 举办超过100场专业技术直播 邀请顶尖高校和企业专家分享最新研究成果[54] - 直播内容涵盖V2X技术发展、神经符号系统、3D检测基础模型等前沿话题[54] - 与国内外300多家机构和自动驾驶公司建立交流机制[66] 企业合作与就业服务 - 与多家自动驾驶公司建立内推机制 直接对接企业招聘需求[9] - 社区成员来自蔚小理、地平线、华为、大疆等头部企业[13] - 覆盖高校包括上海交大、清华大学、CMU、ETH等国内外知名院校[13] - 提供职业规划咨询 帮助解决offer选择、研究方向选择等实际问题[59][61] 技术发展前沿动态 - 端到端自动驾驶成为学术界和工业界研究热点 涵盖一段式/二段式量产方案[31] - 2025年VLA(视觉语言动作模型)成为最火方向 社区详细梳理最新综述和开源数据集[36] - 世界模型技术汇总涵盖技术前沿和业界应用 成为当前研究重点[33] - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[32] 行业发展趋势分析 - 2025年上半年自动驾驶面临量产挑战 学术界关注技术方向转型[64] - 端到端范式在学术界呈现多样化发展 但数据集迭代速度需跟上技术发展[63] - 无图NOA量产方案依赖在线高精地图技术 成为工业界关注重点[43] - 主流量产方案仍采用多模块融合方式 需要5个以上模型协同工作[61]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-30 00:03
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿领域[3] - 涉及世界模型、闭环仿真3DGS、大模型部署与量化感知推理等技术[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶级会议论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶领域资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]
华为坚定不走VLA路线,WA才是自动驾驶终极方案?
自动驾驶之心· 2025-08-30 00:03
华为汽车业务成绩与规模 - 截至7月搭载华为乾崑智驾车辆达100万辆 激光雷达发货量超100万台 辅助驾驶累计里程40亿公里 [3] - 截至8月底共有28款合作车型上市 涵盖五个界及阿维塔 深蓝 岚图 猛士 传褀 方程豹 奥迪等品牌 [3] - 车BU从2014年开始投资 历时超十年投入大量研发资源后实现当期盈利 [4] 技术路线战略 - 坚持WA(世界行为模型)技术路线 认为VLA(感知语言行为模型)非自动驾驶终极方案 [4][13] - WA通过vision等直接信息输入控车 无需转换为语言token 可能整合视觉 声音 触觉等多模态数据 [5][14] - 基于WA架构推出WEWA模型(云端世界引擎+世界行为模型) 将于ADS4.0部署 [6] - 辅助驾驶依赖数据驱动 算力与算法 未来行业需公共智能化平台 [15] 商业化与收费模式 - 辅助驾驶收费合理 因需持续迭代维护OTA投入成本 [8][17] - 免费辅助驾驶实为支付方式转移 或限时免费 或成本包含在车价中 或功能不完善 [7][17] - 采用全生命周期管理理念 用户初期购买成本高但长期体验更优 折算后成本不高 [8][18] 产品开发与用户体验 - 匹配新车型最快需6-9个月 [17] - 坚持全栈模式 软硬件充分耦合 保障鸿蒙座舱与乾崑智驾体验及维护升级 [10] - 鸿蒙座舱基于MoLA架构横向打通垂域 纵向打通应用生态与硬件设备 [10] 技术配置与安全理念 - 增加激光雷达等传感器配置为提升安全性 追求零伤亡事故 [19][22] - 例如尊界S800增加侧向与后向固态激光雷达 使系统精度达厘米级 避免泊车事故 [19][20] - 配置增加由用户场景驱动 如识别坑洼农田等复杂环境 [21][22] 未来发展规划 - 2026年辅助驾驶目标具备高速L3能力及城区L4试点能力 [11] - 2027年目标无人干线物流试点及城区L4规模化商用 [11] - 2028年目标无人干线物流规模化商用 [11] - 智能座舱方向发展为"数字保姆"与AI Agent [11]
用QA问答详解端到端落地:[UniAD/PARA-Drive/SpareDrive/VADv2]
自动驾驶之心· 2025-08-30 00:03
端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型 其中模块化端到端通过感知 预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块 输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径 各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成 检测query用于识别新目标 跟踪query动态变化以匹配目标消失 推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中 通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型:agent-agent(动态agent间交互) agent-map(静态地图交互) agent-goal(目标轨迹交互) motion query由目标点位置 上下文信息 当前位置及先验位置信息五部分组成 输出多模态轨迹 训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构 以历史场景特征和稀疏agent特征为输入 通过pixel-agent interaction的mask cross-attention机制 使场景特征聚焦于局部相关agent信息 最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式 所有子模块采用并行同步协同训练 仅通过更新的BEV query实现模块间联系 测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合(s8/s16/s32)作为encoder输入 decoder分两步:第一步用DETR方式精炼query并引入目标检测监督 第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器 对称稀疏感知和运动规划三部分 图像编码器提取多视角多尺度2D特征 对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式 结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率 规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹 训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化 时空交互和层级规划选择三部分 时空交互聚焦实例级历史交互 输出多轨迹和多规划方案 层级选择先根据驾驶命令筛选轨迹 再结合周围agent预测计算碰撞风险 最终输出最高分轨迹 [25]
转行自动驾驶赛道?别瞎踩坑!这几个公众号码住少走 1 年弯路
自动驾驶之心· 2025-08-30 00:03
在自动驾驶技术飞速迭代的当下,你是否常常陷入这样的困境:想紧跟行业前沿动态,却总被海量碎片化信 息淹没,找不到精准聚焦的优质内容;想深入探究某个细分领域,比如感知算法、车路协同、法规标准,却 苦于找不到垂直深耕的专业平台;想和同领域从业者交流学习、拓展人脉,却困在单一社群的小圈子里,难 寻更广阔的交流空间。 今天,我们深知你的需求与困惑,特意联合了多家自动驾驶垂直领域的优质微信公众号,共同发起这场专属 从业者与爱好者的互推活动。这些公众号各自在自动驾驶的不同赛道上深耕多年,有的专注于技术解析,用 通俗语言拆解复杂算法;有的聚焦产业动态,第一时间捕捉行业政策与市场变化;有的侧重场景应用,带你 领略自动驾驶在物流、出行等领域的落地成果。在这里,你无需再花费大量时间筛选信息,只需轻轻点击关 注,就能一次性解锁多个专业视角,获取更全面、更深入、更有价值的自动驾驶内容,还能结识更多同频伙 伴,拓宽行业视野。接下来,就让我们一起认识这些宝藏公众号吧! 700+全球汽车法规标准解读&智驾知识入门科普,20000+从业者关注参与。 专注智能驾驶与全球汽车政策、法规、标准领域,以专业、前沿的内容为特色,深受汽车爱好者和行业从 ...
机器人offer收割机,这个具身领域的黄埔军校不简单......
自动驾驶之心· 2025-08-29 18:26
社区发展现状 - 具身智能社区已有近2000名成员 目标2年内达到近万人规模 [1] - 社区提供视频 图文 学习路线 问答和求职交流等综合服务 [1] - 社区与多家具身机器人公司建立内推机制 提供岗位对接服务 [6] 社区资源与内容 - 汇总40+开源项目 60+具身智能数据集和行业主流仿真平台 [13] - 整理近30+技术路线 包括强化学习 VLA 多模态大模型等方向 [2][13] - 提供机器人仿真 数据采集 机械臂抓取等领域开源项目汇总 [27] 行业覆盖与合作伙伴 - 社区成员来自斯坦福大学 清华大学等高校和智元机器人 优必选等公司 [13] - 汇总国内外具身智能公司 涉及教育 工业 医疗等多个方向 [18] - 汇总机器人零部件制造厂商 包括芯片 激光雷达 相机等品牌 [25] 技术研究方向 - 涵盖具身感知 交互 导航 规划控制和大模型部署等多个领域 [13][44][61] - 重点关注VLA+RL Diffusion Policy sim2real等前沿技术 [37][55][57] - 提供多模态大模型理解与生成相关技术资源汇总 [48][50] 学习与支持体系 - 为入门者提供技术栈和学习路线 为进阶者提供产业体系和项目方案 [8][10] - 定期举办圆桌论坛和直播 分享行业动态和技术问题 [4] - 社区内部可自由提问 获得工作选择和研究方向的专业解答 [71]
ICCV'25港科大“先推理,后预测”:引入奖励驱动的意图推理,让轨迹预测告别黑箱!
自动驾驶之心· 2025-08-29 11:08
核心观点 - 引入"先推理,后预测"策略,通过奖励驱动的意图推理器提升轨迹预测的可解释性和可靠性 [5][8][10] - 提出FiM模型,在Argoverse和nuScenes基准测试中实现极具竞争力的性能,部分指标超越最先进模型 [10][33][36] - 结合强化学习范式(MaxEnt IRL)和结构化解码器(Bi-Mamba),显著提高预测准确性和置信度 [8][9][10] 方法框架 - 采用编码器-解码器结构,包含以查询为中心的场景编码器、Mamba增强的解码器和奖励驱动的意图推理器 [14][16] - 通过QIRL框架将MaxEnt IRL与矢量化上下文结合,学习奖励分布并生成意图序列(GRT) [8][18] - 使用辅助的时空占用网格地图(OGM)预测头建模未来交互,增强特征融合 [9][18] - 分层DETR类解码器生成轨迹提议,并通过Bi-Mamba结构捕获序列依赖关系 [9][19][21] 实验性能 - 在Argoverse 1测试集上,FiM的MR6为0.1087,minFDE6为1.1199,Brier分数为0.5732,部分指标领先HiVT、Scene Transformer等模型 [32][33] - 在Argoverse 2验证集上,FiM变体的minFDE6为0.528–0.530,优于DeMo(0.543)和QCNet(0.551) [34][35] - 在nuScenes数据集上,FiM的minADE10为0.78,MR10为0.23,显著超越P2T、THOMAS等模型 [36] 技术贡献 - QIRL模块有效替代交叉注意力机制,在消融实验中brier-minFDE6从2.132降至1.602 [37][38] - OGM和细化模块分别将brier-minFDE6从1.670和1.801优化至1.602 [40] - Bi-Mamba结构相比单向Mamba降低brier-minFDE6从1.636至1.602,验证双向扫描机制优势 [41][42] - 最优Mamba层深度为6层,更深层可能导致性能下降 [43]
这款手持3D激光扫描仪,爆了!
自动驾驶之心· 2025-08-29 11:08
产品定位与核心优势 - 面向工业场景和教研场景的超高性价比3D扫描仪 定位为国内最强性价比实景三维激光扫描解决方案 [1] - 以多模态传感器融合算法为核心 实现厘米级精度的三维场景实时重构 [1] - 轻量化设计且一键启动 大幅降低开发门槛 助力开发者快速掌握研发能力 [1][5] 技术性能参数 - 每秒生成20万点云 支持70米测量距离及360°水平视角全域覆盖 [1][29] - 支持超20万平米大场景扫描 相对精度优于3cm 绝对精度优于5cm [1][22][30] - 采用微秒级同步模块 实现多传感器硬件同步触发 同步精度达微秒级 [23][34][35] - 配备Intel N5095处理器(4核2.0GHz) 16G内存/256G存储 支持Ubuntu 20.04及ROS系统 [22] 硬件配置特性 - 集成9DOF IMU、RTK定位模组(UM982)、激光雷达(Livox Mid-360)及双广角相机 [13][23] - 可选配Intel D435i深度相机及3D高斯采集模块 实现高保真实景还原 [1][23][50] - 采用航空铝外壳 整机重量1.9kg(含电池) 续航3-4小时 支持快拆弹夹电池(88.8Wh) [22][26] - 配备5.5寸触控屏 提供千兆网口、双USB 3.0接口及Micro SD扩展接口 [16][22][23] 应用场景与解决方案 - 适用于写字楼、停车场、工业园区、隧道、森林及矿场等复杂室内外场景 [38][46] - 支持跨平台集成 可适配无人机、无人车、机械狗及人形机器人等负载平台 [44] - 提供地理信息数据采集、施工精度监控及文化遗产修复等专业领域解决方案 [52][54] 产品版本与定价 - 基础版售价19800元 含主机、软件及RTK配件 [57][58] - 深度相机版售价23800元 增加深度相机模块 [57][58] - 3DGS在线版售价39800元 含高斯采集配件及两个月云服务(月续费5000元) [57][58] - 3DGS离线版售价67800元 含本地渲染软件 需客户自备高性能服务器 [57][58]