Workflow
自动驾驶之心
icon
搜索文档
测评特斯拉后,国内智驾的天塌了!
自动驾驶之心· 2025-07-27 11:04
自动驾驶行业测试结果分析 - 懂车帝对36款车型进行高速事故场景测试,特斯拉Model 3和Model X分别以5/6和5/6的通过率排名前两位,仅各有一项未通过[4] - 城市场景测试中,Model X以8/9的通过率排名第一,智界R7、阿维塔12等车型以7/9的通过率紧随其后[7] - 国内车型如蓝山、小鹏G6、问界M9等在高速测试中通过率为3/6,部分车型通过率低至1/6或0/6[4][6] 车企技术表现差异 - 特斯拉在两项测试中均表现突出,Model 3在"莽撞横穿的猪"场景未通过,Model X在"高速临时施工"和"倒车难题"场景存在短板[4][7] - 华为系车型如问界M7/M9在城市场景通过率为5/9,智界R7高速和城市通过率均为3/6和7/9[6][7] - 新势力中小鹏G6高速通过率3/6,城市场景3/9;蔚来ES6城市场景仅1/9通过率[6][7] 行业反馈与争议 - 岚图汽车高管指出行业存在高速避险和非标障碍物识别的技术瓶颈[8] - 特斯拉高管强调安全要求无上限,但提及数据本地化对测试结果的潜在影响[10] - 鸿蒙智行和广汽丰田对测试结果持保留态度,重申辅助驾驶的安全边界[11] 技术发展现状 - 当前市场尚无认证的L3级智能驾驶产品,辅助驾驶功能仍需驾驶员保持警惕[17] - 测试显示多数车型在极端场景下的表现存在显著提升空间,特别是非标准化场景的应对能力[4][7] - 行业需要加强消费者教育,明确辅助驾驶的功能边界和使用限制[17]
开源!智元机器人正式发布首个具身操作系统框架:智元灵渠OS
自动驾驶之心· 2025-07-27 11:04
行业动态 - 2025世界人工智能大会主论坛以"技术-合作-普惠"三层递进结构展开,聚焦AI未来发展[2] - 具身智能成为大会焦点领域,智元机器人作为唯一具身智能代表亮相主论坛[2] - 行业正从工具属性向伙伴关系跨越,人机协作将突破传统边界创造新价值[3][4] 公司技术突破 - 智元机器人发布业界首个具身智能操作系统参考框架"智元灵渠OS"开源计划[2][4] - 灵犀X2人形机器人展示"本体+运动/交互/作业智能"三大能力,实现丝滑肢体动作和自主生成高质量问答[3] - 操作系统采用"分层开源、共建共享"模式,底层基于高性能中间件AimRT,上层开放智能体服务框架[5] 产品亮点 - 灵犀X2在WAIC主论坛完成人机对话,展现拟人化表达与动态交互能力[3] - 机器人能自主感知电量状态并进行幽默反馈,展示人机交互的温度与活力[3] - 操作系统将于2025年Q4开始逐步开源,支持虚拟仿真到实体部署的技术闭环[5] 行业定位 - 智元机器人定位为具身智能行业的"年轻人",致力于打造有生命的科技[4] - 公司目标构建有温度、有价值、可信赖的人机协作生态[4] - 操作系统被类比为PC时代的Windows和移动互联网时代的鸿蒙,是产业生态基础[5] 社区建设 - 智元机器人已建立近2000人的具身智能学习社区[6] - 社区汇聚近200家具身机器人公司与机构进行交流[6]
自动驾驶为什么需要NPU?GPU不够吗?
自动驾驶之心· 2025-07-26 21:30
自动驾驶芯片技术对比 - 纯GPU方案可实现低级别自动驾驶,但存在延迟高(80毫秒导致车辆行驶1.33米)、功耗大(4颗TITAN X GPU达320W使电动车续航减少30%)和效率低(ResNet-152模型处理4K图像耗时28毫秒)三大短板 [5][6][7] - NPU专用架构在神经网络计算中表现优异:华为昇腾310B含2048个MAC单元,数据流转路径比GPU减少60%;处理相同任务耗时仅8毫秒,比GPU快3.5倍 [12][6] - TPU采用512x512脉动阵列,数据复用率比GPU高3倍,专为TensorFlow优化但灵活性较低 [12][14][27] 芯片架构原理差异 - GPU基于通用流处理器(如GTX1080含2560个),执行AI任务时30%-40%硬件资源闲置 [10] - NPU采用MAC阵列直接映射神经网络结构,华为昇腾310B通过2048个乘加单元实现硬件级矩阵运算加速 [12][15] - TPU的脉动阵列通过数据节拍流动(如TPUv2的512x512阵列)减少访存次数,适合大型矩阵乘法 [14][15] 混合计算方案优势 - 英伟达Thor芯片采用GPU+NPU异构设计:NPU处理YOLOv8目标检测(5毫秒/帧),GPU完成激光雷达坐标转换(3毫秒/百万点云),协同效率提升40% [30] - 混合方案相比纯GPU硬件成本降低25%(单芯片成本500美元 vs 4000美元),电路板空间占用减少50% [31][35][36] - 兼容现有GPU算法可节省18个月适配时间,量产10万台时NPU单位研发成本仅30美元(GPU需80美元) [30][37] 能效与成本数据 - NPU能效比显著领先:特斯拉FSD芯片NPU部分达5.76TOPS/W,是同级GPU方案(1.07TOPS/W)的5.4倍 [34] - L4自动驾驶测试中,纯GPU方案(150W)比混合方案(60W)每百公里多耗电8度,续航减少53公里 [34] - 实现144TOPS算力时,NPU方案硬件总成本1200美元仅为纯GPU方案(5500美元)的21.8% [35][36]
深度好文 | 聊聊 MoE 模型的量化
自动驾驶之心· 2025-07-26 21:30
MoE模型量化技术研究进展 - MoE模型面临高显存需求挑战 传统量化方法在4位/3位时会出现显著精度损失 主要由于稀疏动态计算模式和专家异常值问题[4] - 当前解决方案分为两类:GPU-CPU协同卸载方法和量化压缩技术 后者通过降低内存和计算需求成为主流方向[4] 核心量化方法 QMoE框架 - 针对1.6万亿参数SwitchTransformer-c2048模型 实现20倍压缩至160GB 每个参数占比小于1位[8] - 采用动态稀疏量化框架 专家层使用2bit三进制(-1,0,1) 非专家层保留bf16 结合90%自然稀疏性实现<1bit/参数[8][10] - 需定制CUDA kernel支持稀疏矩阵乘法 实现端到端压缩推理[10] MoQa方法 - 提出多阶段数据-模型分布感知量化 解决不同输入分布下专家重要性差异问题[12] - 构建联合数据分布 按专家重要性实施INT2/4/6/8混合精度量化[14][16] - 动态调整1%最敏感通道为fp16计算 平衡精度与开销[17] MxMoE方案 - 基于Roofline模型分析 对不同MoE块(Gate/Proj_Up/Proj_Down)实施差异化量化[18][21] - 高激活专家用W8A8 低激活专家用W4A16 配套开发专用GEMM算子提升吞吐量[21][22] 新兴优化技术 MoEQuant - 通过专家平衡自采样(EBSS)构建校准数据集 解决PTQ中专家激活不平衡问题[25][26] - 引入亲和度引导量化 将门控系数纳入逐层校准过程[27] EAQuant - 针对W3A4极端量化场景 构建统一通道级平滑向量抑制激活异常值[29][30] - 采用KL散度最小化专家选择分布差异 同步校准专家与非专家参数[30][31] MiLo补偿器 - 针对INT3量化 通过SVD分解残差矩阵获取低秩补偿矩阵[34][35] - 实测显示可有效恢复中等权重值的信息损失[35] 边缘计算优化 Fate系统 - 为边缘设备设计 结合跨层门控预测实现专家预取[36] - 分级存储策略:CPU MEM缓存用int4 运算阶段按专家受欢迎程度动态切换int2/int4[38] MoQAE创新 - 借用MoE门控机制 为长上下文选择最优KVCache量化位宽[39]
从端到端到VLA,自动驾驶量产开始往这个方向发展...
自动驾驶之心· 2025-07-26 21:30
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂抢占的技术高地,E2E+VLM双系统架构去年取得成功后,VLA概念在2024年上半年掀起新一轮量产方案迭代[2] - 行业对端到端技术人才需求旺盛,3-5年经验的VLM/VLA岗位年薪高达百万,月薪达70K[2] - 学术界和工业界聚焦端到端技术,但存在技术流派分化问题,包括UniAD、PLUTO、OccWorld、DiffusionDrive等多种算法方案[2][7] 端到端技术发展特点 - 技术演进快速,2023年的工业级端到端算法方案已不适应2024年环境,需掌握多模态大模型、BEV感知、强化学习等跨领域知识[3] - 技术栈呈现多元化发展,包括基于感知的一段式(UniAD)、基于世界模型的一段式(OccWorld)、基于扩散模型的一段式(DiffusionDrive)以及VLA方向[7][11] - 学习门槛较高,存在论文数量繁多(年新增数百篇)、知识碎片化、缺乏高质量文档等挑战[3] 端到端课程核心内容 - 课程覆盖五大技术模块:端到端算法介绍、背景知识、二段式端到端、一段式端到端与VLA、RLHF微调实战[9][10][11][13] - 重点技术包括:PLUTO二段式架构(CVPR'25 CarPlanner)、UniAD感知方案(CVPR'24 PARA-Drive)、世界模型(AAAI'25 Drive-OccWorld)、扩散模型(DiffE2E)、VLA(小米ORION)[7][10][11] - 实战环节包含Diffusion Planner代码复现和ORION开源模块应用,目标实现工业级算法落地[11][13] 行业技术趋势 - VLA成为端到端自动驾驶的"皇冠技术",小米ORION、慕尼黑工大OpenDriveVLA等方案显示大模型与自动驾驶的深度结合[11] - 扩散模型在轨迹预测领域取得突破,DiffusionDrive等方案实现多模轨迹输出,适应自动驾驶不确定性环境[7][11] - 世界模型技术应用扩展,Drive-OccWorld等方案同时支持场景生成、端到端控制和闭环仿真[11] 人才能力要求 - 需构建跨领域知识体系,包括视觉Transformer(CLIP/LLaVA)、BEV感知(3D检测/车道线/OCC)、扩散模型理论、VLM强化学习(RLHF/GRPO)[12] - 工程能力要求涵盖PyTorch框架、GPU计算(推荐RTX4090)、数学基础(概率论/线性代数)及算法复现能力[20] - 职业发展目标为1年经验端到端算法工程师水平,具备技术框架设计能力和项目落地经验[20]
二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测(ICCV'25)
自动驾驶之心· 2025-07-26 21:30
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,通过行为意图推理提升预测准确性和置信度 [4][11] - 开发奖励驱动意图推理器,结合以查询为中心的逆强化学习框架(QIRL)和最大熵逆强化学习(MaxEnt IRL) [8][14] - 设计分层DETR-like解码器集成双向选择性状态空间模型(Bi-Mamba),增强序列依赖关系捕捉能力 [9][26] - 在Argoverse和nuScenes数据集上实现SOTA性能,minFDE6指标达0.528-0.551,Brier分数0.594-0.629 [33][36] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义基于网格的推理遍历(GRT)作为意图序列 [5][19] - QIRL框架将向量化场景特征聚合为网格token,通过MaxEnt IRL推导奖励分布 [8][24] - 策略rollout生成多模态GRT序列,提取意图先验指导轨迹预测 [24][25] - 辅助时空占用网格图(OGM)预测头建模参与者未来交互,提升特征融合效果 [9][24] 轨迹解码架构 - 分层结构包含无锚点提议生成和基于锚点的优化两阶段 [25][26] - Bi-Mamba模型双向处理轨迹token,通过双CLS token实现前向-后向特征融合 [26][28] - 模态自注意力模块增强多模态预测,最终输出轨迹偏移量和概率分布 [26][28] - 消融实验验证Bi-Mamba比MLP基准提升brier-minFDE6达11.3% [40][43] 实验验证 定量结果 - Argoverse 1测试集:单模型brier-minFDE6 1.602,集成模型达1.131 [33][35] - Argoverse 2验证集:GRT-L变体minFDE6 0.528,优于DeMo(0.543)和QCNet(0.551) [34][36] - nuScenes数据集:超越当前所有排行榜模型,验证框架鲁棒性 [36] 消融分析 - 移除推理分支导致brier-minFDE6上升79.6%,验证意图推理关键作用 [37][38] - OGM模块贡献brier-minFDE6下降4.1%,优化模块贡献11.0% [39][40] - 双CLS token设计比单向Mamba提升分类精度3.2% [43][47] 行业应用 - 向量化表示结合Transformer架构成为自动驾驶轨迹预测主流技术路线 [12][19] - 强化学习范式在驾驶行为建模中展现潜力,为行业提供新研究基线 [47][55] - 长期意图监督(GRT-L)显著提升预测置信度,对量产系统具有实用价值 [34][35]
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 10:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]
打算在招募一些大佬,共创平台!
自动驾驶之心· 2025-07-26 10:39
行业发展趋势 - 智能驾驶行业正从L2向L3阶段过渡 技术突破带来实际体验提升 逐渐普及至千家万户 [2] - 行业进入下沉期 简单问题已收敛 需攻克复杂未知领域 强调稳扎稳打解决量产难题 [2] 公司动态与产品表现 - 小米汽车YU7车型三分钟大定突破200000台 反映产品硬实力与小米集团软实力协同效应 [2] - 自动驾驶之心平台进入第四年 致力于汇聚全球人才 推动智能驾驶项目合作与教育研发 [2] 项目合作与团队建设 - 计划在北京 上海 深圳 广州 杭州 武汉 西安建立研发团队 每城市招募约10人 [4] - 合作方向包括横向纵向项目 企业咨询 要求成员具备3年以上自驾算法或机器人研究经验 [4] 教育研发与人才需求 - 开展自驾教育在线课程 企业咨询等业务 聚焦大模型 端到端 强化学习等前沿技术方向 [5] - 要求参与者为博士及以上学历 工业界需3年以上研发经验 [6] 合作模式与资源支持 - 提供大比例分红及全行业资源共享 支持兼职或全职参与 [8]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 18:47
核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - **世界分词器**:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - **渲染器**:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - **LLM处理**:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]
建了个抱团取暖的求职交流群~
自动驾驶之心· 2025-07-25 18:47
自动驾驶行业趋势 - 自动驾驶技术栈开始趋同 以前需要几十个方向的算法工程师 现在转向one model、VLM、VLA等统一方案 [1] - 统一方案背后是更高的技术壁垒 行业对人才的技术要求提升 [1] 行业人才动态 - 校招学生面临实习受限、实验室资源不足等挑战 传统规控方向人才寻求转行机会 [1] - 从业者出现转行趋势 包括从规则系统转向大模型或具身智能领域 [1] - 行业人才普遍寻求职业发展突破 争取更好未来 [1] 社群建设 - 建立行业综合型平台社群 汇集全行业人才 [1] - 社群内容涵盖产业动态、公司信息、产品研发及求职跳槽等话题 [1] - 提供行业交流渠道 帮助成员获取最新产业信息 [1]