自动驾驶之心
搜索文档
2025年全球汽车Tier1厂商排名
自动驾驶之心· 2025-10-25 00:03
2025年全球汽车Tier1厂商排名 - 博世在汽车电子、动力总成和自动驾驶领域占据领先地位,排名第一 [2] - 采埃孚在传动系统、底盘技术和自动驾驶领域具有优势,排名第二 [2] - 电装专注于汽车电子和动力总成,排名第三 [2] - 宁德时代作为动力电池厂商进入前十,排名第六,主要优势在动力电池和储能系统 [2] - 德赛西威和华阳集团等中国厂商在智能驾驶和智能座舱领域表现突出,分别排名第七和第八 [2] 行业核心趋势:电动化与智能化 - 电动化转型加速推动动力电池厂商市场份额提升,中国厂商如宁德时代和比亚迪有望在2025年进一步扩大份额 [3] - 智能驾驶和智能座舱成为行业核心增长点,德赛西威、华阳集团等中国厂商在相关领域市场占有率不断提升 [3] 市场竞争格局演变 - 传统Tier1厂商如博世、采埃孚、电装凭借技术积累和客户基础继续主导市场,但2024年业绩普遍承压,营收和利润下滑明显 [4] - 中国Tier1厂商在新能源汽车和智能驾驶领域取得显著突破,逐渐打破国际龙头壁垒 [5] 区域市场动态 - 中国新能源汽车市场快速发展,为本土Tier1厂商提供巨大市场空间,2025年中国自主车企在新能源领域市场份额持续增长 [10] - 欧美市场电动化转型放缓,但对自动驾驶和智能座舱的需求依然旺盛,为Tier1厂商提供新的增长机会 [10] 未来技术与发展方向 - 具备软硬件全栈技术能力的供应商有望获得更大市场份额 [6] - 海外Tier1厂商通过投资中国初创企业和开发本地化产品,试图重回市场主导地位 [6]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
沈劭劼团队25年成果一览:9篇顶刊顶会,从算法到系统的工程闭环
自动驾驶之心· 2025-10-24 08:04
港科大ARCLab研究团队概况 - 团队由沈劭劼教授领衔,专注于自主导航、无人机技术、传感器融合与三维视觉等领域,强调从算法到系统的工程闭环与开源生态[2] - 团队在学术与工程落地双线并进,获得IEEE T-RO最佳论文奖荣誉提及、IROS最佳学生论文奖等多项荣誉,并两度获AI 2000最具影响力学者荣誉提名[3] - 团队特色为产品化思维与强工程执行力,坚持问题选择直面真实场景痛点,解法偏向优化与系统集成,重视落地实验与全链路复现[3] - 人才培养成果显著,实验室成员活跃于学术与产业一线,如高飞(浙大长聘副教授)、秦通(上交副教授、曾任华为"天才少年")等[4] 状态估计与多源融合 - 提出统一位姿图优化框架,将局部高精度但会漂移的VO/VIO与全局无漂移但噪声较大的传感器融合,通过图优化对齐局部轨迹到全局坐标并显式消除累计漂移[5] - 框架通用可插拔,在公开数据集与真实环境验证中优于多种SOTA方案,为长时程与大范围任务在GNSS受限场景提供低门槛多源融合方案[5] - 利用事件相机超高时间分辨率,提出不依赖地图的视觉惯性估计方案,通过实时恢复线速度实现低时延、米级标定的速度估计,适用于高速无人机与极端运动场景[17][18] 轻量化建图与地图对齐 - 开发SLIM框架,将LiDAR点云简化为"线"和"面"表示道路和建筑,使地图更轻量且易于维护,支持不同时间采集地图的合并与整体优化[8] - 在KITTI数据集上实现整张城市地图约130 KB/公里的体量,精度不降且支持直接再次定位,显著降低长期运行中地图存储、更新和复用成本[8] - 提出场景图配准方法,将环境抽象为场景图,通过开放集语义、局部拓扑和形状特征融合成紧凑节点描述,实现低带宽下的多机器人地图对齐,每帧仅需约52 KB通信[13] 复杂环境自主导航 - 针对狭窄隧道(最小直径0.5 m)提出实时在线多旋翼自主系统,通过虚拟全向感知克服弱纹理/弱光与有限视场,显式建模感知可见性与自体气流扰动[6] - 在真实窄隧道实验中定制四旋翼表现优于人类飞手,并提供跨平台部署流程与开源包,为检修/搜救等受限空间作业提供可复用工程方案[6] - 结合视觉识别与主动触觉确认玻璃存在性,通过轻量触觉模块点触确认后写入三维体素地图并即时重规划绕行路径,提升玻璃密集空间巡检/搜救效率[10] 场景理解与拓扑推理 - 提出SEPT框架,将标准清晰度地图作为先验信息接入在线感知与拓扑推理,通过混合特征融合缓解SD地图与BEV特征的错位问题[12] - 利用路口特性设计路口感知关键点辅助任务,在OpenLane-V2数据集上对远距离/遮挡等难场景有明显提升,为低成本轻地图自动驾驶提供可行路径[12] - 基于向量化车道图表示道路与交互关系,在逆强化学习框架下学到隐含奖励与策略,采样出多种合理未来轨迹,提升复杂路口与长尾交互场景的预测稳健性[16] 轨迹预测与决策 - 采用逆强化学习方法,先推理意图后预测轨迹,通过可解释意图推理器编码场景车辆与道路要素到统一向量表示,推断多种可能意图作为先验[20] - 在Argoverse与nuScenes数据集上取得SOTA效果,显著提升置信度与性能,为路口博弈、遮挡等不确定场景提供更可解释且易与规划对接的预测路径[20] - 提出分层参数化生成器与精修模块,结合概率融合提高置信度,对未见场景的泛化能力优于纯监督方法,增强预测结果的可扩展性[16] 2025年研究主线总结 - 团队沿五条主线推进:更稳的状态估计与多源融合、更轻量的建图与地图对齐、更可靠的复杂/极端环境自主导航、更全面的场景理解与拓扑推理、更精准的轨迹预测与决策[23] - 整体风格保持问题导向与从算法到系统,兼顾可复现与工程落地,面向长期运行、低带宽与弱先验场景,强调通用性与可扩展性[23] - 年度关键词为稳、轻、实、通、可解释,体现技术演进方向[24]
Optimus要量产了,特斯拉Q3电话会议(251023)
自动驾驶之心· 2025-10-24 08:04
Optimus发展规划与产能目标 - 公司计划建立年产100万台Optimus的生产线,最终产量目标约1000万台,远期产能或达5000万至1亿台[3][16] - Optimus V3预计将在2026年第一季度或之前发布,第一代生产线目前正在安装,准备进行批量生产[6] - 计划在明年底左右启动年产100万台规模的生产线,明年一季度(2-3月)将推出生产意向展示原型[15] 技术整合与能力展示 - 公司强调其全自动驾驶(FSD)人工智能技术可以直接转移到Optimus机器人上[7] - Optimus机器人现已能在公司总部全天候巡逻,并具备引导访客前往房间的自主导航与对话能力[10] - 为提升智能性,Optimus预计将接入Grok,重点展示自主规划及对话能力[18] 供应链与生产挑战 - 制造人形机器人需从零开始建立全新供应链,公司必须实现垂直一体化并自行设计零部件[13][14] - 硬件设计会在启动生产时冻结,但会持续迭代,因制造难题多在后期显现,Gen3投产后设计仍会滚动式更新[15] - 公司结合了现实世界AI、机械工程和大规模生产三大要素,这在行业内处于几乎独一无二的地位[14] 硬件设计预测与迭代 - 为获得更高精细度,Optimus大概率采用腱绳驱动加连杆的手部与前臂整体方案,手臂合计31个执行器[17] - 由于行星滚柱丝杠的球关节稳定性问题,可能会放弃部分线性执行器,转向旋转传动方式[19] - 灵巧手加前臂的组合方案被强调为目前依然很难的技术挑战[12]
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 08:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 08:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
京东入局新能源汽车赛道,名称官宣......
自动驾驶之心· 2025-10-23 16:14
合作与产品发布 - 广汽集团联合京东、宁德时代推出新车型,正式命名为“埃安UT super” [1] 核心技术配置 - 新车型率先搭载“广汽华为云车机”技术 [2] - 车型基于宁德时代巧克力换电技术,在同级车中首次配备500公里续航大电池 [2] - 车型支持99秒快速换电 [2]
手持激光雷达即可在线实时重建点云!超高性价比3D扫描仪来了~
自动驾驶之心· 2025-10-23 08:04
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的超高性价比3D激光扫描仪,是国内目前最强性价比实景三维激光扫描仪 [1] - 核心价值在于轻量化设计、一键启动、高效实用的三维解决方案,旨在降低开发门槛,助力开发者快速掌握研发能力 [1][5] - 产品以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] 核心技术参数与性能 - 扫描性能达到每秒20万点云成图,测量距离70米,支持360°水平视角全域覆盖 [1][29] - 支持超20万平米以上的大场景扫描,相对精度优于3厘米,绝对精度优于5厘米 [1][22][30] - 采用微秒级同步技术实现多传感器数据融合,搭载高精度多传感器SLAM建图算法,实时输出高精度点云数据 [27][34][35] - 系统支持实时解算和预览,点云数据可输出为pcd、las、plv等多种通用格式 [22] 硬件配置与设计特点 - 设备集成丰富传感器,包括3D激光雷达、9DOF IMU、双广角相机、深度相机及RTK模块,并配备x86计算单元 [13][22][23] - 采用小倾角设计,激光雷达25°倾斜角度安装,兼顾多个方位,无需反复采集 [15] - 硬件尺寸为14.2cm * 9.5cm * 45cm,重量为1.3kg(不含电池),采用航空铝外壳,配备5.5寸触控屏 [22] - 计算单元采用Intel N5095处理器,4核2.0GHz,配备16G内存和256G硬盘(可拓展TF卡) [22] - 供电采用弹夹电池,容量为88.8Wh,续航时间约3-4小时,支持多种输入输出方式 [22][26] 软件功能与易用性 - 设备自带手持Ubuntu系统,支持ROS,软件操作简单直观,一键启动即可执行扫描作业 [3][5][22] - 扫描结果导出即用,无需复杂部署和繁琐处理,支持快速建图、彩色点云建图、数据录制及3D高斯采集等功能 [5][42][43] - 提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [6][7][50] 应用场景与平台适配 - 可广泛用于大型园区、花园场景、老旧街道、市政道路、环形花园、坡道、隧道、森林、矿场等多种复杂室内外场景 [38][39][46][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [44] - 适用于地理信息数据采集、城市规划、文昌监测、工程数据采集、文化遗产修复研究及虚拟开发等领域 [52][54] 产品版本与定价策略 - 公司推出四种版本:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元)、3DGS离线版(67800元) [57][58] - 3DGS在线版包含云服务,续费为5000元/月,并赠送两个月云服务;离线版要求客户自备高性能服务器或由公司另行提供 [58] - 购买后提供为期1年的售后服务,并可根据需求提供专业工程师培训支持服务 [58][60]
上交OccScene:3D OCC生成新框架(TPAMI)
自动驾驶之心· 2025-10-23 08:04
研究背景与核心问题 - 自动驾驶系统研发高度依赖高质量、大规模的标注数据来训练感知模型,但数据获取成本高昂、费时费力[2] - 传统方法将生成模型和感知模型作为两个独立环节处理,导致生成的合成数据可能不符合真实世界的物理规律和几何结构,对下游感知任务价值有限[2] - OccScene旨在解决生成与感知"学用脱节"的问题,实现两者的深度融合[2] 核心创新与贡献 - 首次实现3D场景生成与语义Occupancy感知的深度融合,通过联合扩散框架达到"1+1>2"的效果[3] - 提出范式创新的联合学习框架,感知模型为生成提供精细几何与语义先验,生成的合成数据反哺感知模型,形成良性循环[5] - 设计基于Mamba的双重对齐模块,高效对齐相机轨迹、语义Occupancy与扩散特征,确保生成内容的跨视角一致性和几何精确性[5][14] - 仅需文本提示即可同时生成高质量图像/视频及对应的3D语义占据信息,并能显著提升现有SOTA感知模型性能[5] 技术架构与实现方法 - 采用联合感知-生成扩散框架,将语义Occupancy预测与文本驱动生成统一到单个扩散过程中[8] - 实施两阶段训练策略:第一阶段冻结感知模型权重,训练扩散UNet理解Occupancy几何约束;第二阶段联合优化,同时训练扩散UNet和感知模型实现双向促进[9][10] - 设计动态加权损失函数,通过噪声水平进行动态加权,在去噪早期感知监督权重较低,随着图像变清晰监督权重逐渐增强,确保训练稳定性[11][13] - 推理过程采用独特的闭环自我优化机制,实现"边生成、边感知、边校正",确保最终生成结果的几何一致性和语义准确性[17][19] 性能表现与实验结果 - 在NYUv2室内数据集上,OccScene的FID指标为15.54,显著优于SD的47.82和ControlNet的50.61[21] - 在NuScenes室外数据集上FID为11.87,在SemanticKITTI数据集上FID为19.86,FVD为113.28[21] - 作为数据增强策略可显著提升感知模型性能:在NYUv2数据集上使MonoScene的mIoU从26.94提升至29.78;在SemanticKITTI数据集上使TPVFormer的mIoU从7.8提升至12.2[25] - 消融实验显示联合学习策略相比离线生成,在FID指标上从28.52提升至19.86,mIoU从12.94提升至15.70[27] - Mamba-based MDA模块相比Attention架构推理时间从4.09秒减少至2.76秒,节省32.5%的时间[27] 应用价值与行业影响 - 为自动驾驶仿真生成高保真、多样化的驾驶场景,特别是各种极端场景,以低成本增强系统鲁棒性[32] - 为机器人与AR/VR领域的室内外场景导航、交互提供可控、可编辑的虚拟环境[32] - 作为即插即用的数据生成器,为各类下游3D视觉任务提供高质量训练数据,有效解决数据稀缺问题[32]
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 08:04
作者 | 张凯@知乎 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1959223427115250831 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 学校毕业以后一直从事芯片算法行业,中间经历了CNN的如日中天,ViT的异军突起,再到如今LLM/VLM的一片火热,算法层面早已发生了 翻天覆地的变化。 未来端侧智能的上限究竟有多高,我们还没有见到天花板;但是可以预见的是,具身智能,手机,音箱,摄像头,各种盒子,各种端侧场景 的需求是无限广阔的,这既是历史性的挑战,更是时代赋予的机遇。 目前市场上也有一些端侧的芯片,这里聊的主要是100T算力以内的芯片,例如爱芯元智、算能都相关的芯片,也能支持LLM的推理,但是不 管如何,其实还是面向上一代的ViT设计的,其效率在LLM上还没有达到上限。 Transformer架构长期以来主导了大模型领域,其自注意力机制的计算复杂度与序列长度呈平方关系,这对prefill阶段的算力需求和decod ...