自动驾驶之心
搜索文档
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
沈劭劼团队25年成果一览:9篇顶刊顶会,从算法到系统的工程闭环
自动驾驶之心· 2025-10-24 08:04
港科大ARCLab研究团队概况 - 团队由沈劭劼教授领衔,专注于自主导航、无人机技术、传感器融合与三维视觉等领域,强调从算法到系统的工程闭环与开源生态[2] - 团队在学术与工程落地双线并进,获得IEEE T-RO最佳论文奖荣誉提及、IROS最佳学生论文奖等多项荣誉,并两度获AI 2000最具影响力学者荣誉提名[3] - 团队特色为产品化思维与强工程执行力,坚持问题选择直面真实场景痛点,解法偏向优化与系统集成,重视落地实验与全链路复现[3] - 人才培养成果显著,实验室成员活跃于学术与产业一线,如高飞(浙大长聘副教授)、秦通(上交副教授、曾任华为"天才少年")等[4] 状态估计与多源融合 - 提出统一位姿图优化框架,将局部高精度但会漂移的VO/VIO与全局无漂移但噪声较大的传感器融合,通过图优化对齐局部轨迹到全局坐标并显式消除累计漂移[5] - 框架通用可插拔,在公开数据集与真实环境验证中优于多种SOTA方案,为长时程与大范围任务在GNSS受限场景提供低门槛多源融合方案[5] - 利用事件相机超高时间分辨率,提出不依赖地图的视觉惯性估计方案,通过实时恢复线速度实现低时延、米级标定的速度估计,适用于高速无人机与极端运动场景[17][18] 轻量化建图与地图对齐 - 开发SLIM框架,将LiDAR点云简化为"线"和"面"表示道路和建筑,使地图更轻量且易于维护,支持不同时间采集地图的合并与整体优化[8] - 在KITTI数据集上实现整张城市地图约130 KB/公里的体量,精度不降且支持直接再次定位,显著降低长期运行中地图存储、更新和复用成本[8] - 提出场景图配准方法,将环境抽象为场景图,通过开放集语义、局部拓扑和形状特征融合成紧凑节点描述,实现低带宽下的多机器人地图对齐,每帧仅需约52 KB通信[13] 复杂环境自主导航 - 针对狭窄隧道(最小直径0.5 m)提出实时在线多旋翼自主系统,通过虚拟全向感知克服弱纹理/弱光与有限视场,显式建模感知可见性与自体气流扰动[6] - 在真实窄隧道实验中定制四旋翼表现优于人类飞手,并提供跨平台部署流程与开源包,为检修/搜救等受限空间作业提供可复用工程方案[6] - 结合视觉识别与主动触觉确认玻璃存在性,通过轻量触觉模块点触确认后写入三维体素地图并即时重规划绕行路径,提升玻璃密集空间巡检/搜救效率[10] 场景理解与拓扑推理 - 提出SEPT框架,将标准清晰度地图作为先验信息接入在线感知与拓扑推理,通过混合特征融合缓解SD地图与BEV特征的错位问题[12] - 利用路口特性设计路口感知关键点辅助任务,在OpenLane-V2数据集上对远距离/遮挡等难场景有明显提升,为低成本轻地图自动驾驶提供可行路径[12] - 基于向量化车道图表示道路与交互关系,在逆强化学习框架下学到隐含奖励与策略,采样出多种合理未来轨迹,提升复杂路口与长尾交互场景的预测稳健性[16] 轨迹预测与决策 - 采用逆强化学习方法,先推理意图后预测轨迹,通过可解释意图推理器编码场景车辆与道路要素到统一向量表示,推断多种可能意图作为先验[20] - 在Argoverse与nuScenes数据集上取得SOTA效果,显著提升置信度与性能,为路口博弈、遮挡等不确定场景提供更可解释且易与规划对接的预测路径[20] - 提出分层参数化生成器与精修模块,结合概率融合提高置信度,对未见场景的泛化能力优于纯监督方法,增强预测结果的可扩展性[16] 2025年研究主线总结 - 团队沿五条主线推进:更稳的状态估计与多源融合、更轻量的建图与地图对齐、更可靠的复杂/极端环境自主导航、更全面的场景理解与拓扑推理、更精准的轨迹预测与决策[23] - 整体风格保持问题导向与从算法到系统,兼顾可复现与工程落地,面向长期运行、低带宽与弱先验场景,强调通用性与可扩展性[23] - 年度关键词为稳、轻、实、通、可解释,体现技术演进方向[24]
Optimus要量产了,特斯拉Q3电话会议(251023)
自动驾驶之心· 2025-10-24 08:04
Optimus发展规划与产能目标 - 公司计划建立年产100万台Optimus的生产线,最终产量目标约1000万台,远期产能或达5000万至1亿台[3][16] - Optimus V3预计将在2026年第一季度或之前发布,第一代生产线目前正在安装,准备进行批量生产[6] - 计划在明年底左右启动年产100万台规模的生产线,明年一季度(2-3月)将推出生产意向展示原型[15] 技术整合与能力展示 - 公司强调其全自动驾驶(FSD)人工智能技术可以直接转移到Optimus机器人上[7] - Optimus机器人现已能在公司总部全天候巡逻,并具备引导访客前往房间的自主导航与对话能力[10] - 为提升智能性,Optimus预计将接入Grok,重点展示自主规划及对话能力[18] 供应链与生产挑战 - 制造人形机器人需从零开始建立全新供应链,公司必须实现垂直一体化并自行设计零部件[13][14] - 硬件设计会在启动生产时冻结,但会持续迭代,因制造难题多在后期显现,Gen3投产后设计仍会滚动式更新[15] - 公司结合了现实世界AI、机械工程和大规模生产三大要素,这在行业内处于几乎独一无二的地位[14] 硬件设计预测与迭代 - 为获得更高精细度,Optimus大概率采用腱绳驱动加连杆的手部与前臂整体方案,手臂合计31个执行器[17] - 由于行星滚柱丝杠的球关节稳定性问题,可能会放弃部分线性执行器,转向旋转传动方式[19] - 灵巧手加前臂的组合方案被强调为目前依然很难的技术挑战[12]
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 08:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 08:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
京东入局新能源汽车赛道,名称官宣......
自动驾驶之心· 2025-10-23 16:14
合作与产品发布 - 广汽集团联合京东、宁德时代推出新车型,正式命名为“埃安UT super” [1] 核心技术配置 - 新车型率先搭载“广汽华为云车机”技术 [2] - 车型基于宁德时代巧克力换电技术,在同级车中首次配备500公里续航大电池 [2] - 车型支持99秒快速换电 [2]
手持激光雷达即可在线实时重建点云!超高性价比3D扫描仪来了~
自动驾驶之心· 2025-10-23 08:04
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的超高性价比3D激光扫描仪,是国内目前最强性价比实景三维激光扫描仪 [1] - 核心价值在于轻量化设计、一键启动、高效实用的三维解决方案,旨在降低开发门槛,助力开发者快速掌握研发能力 [1][5] - 产品以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] 核心技术参数与性能 - 扫描性能达到每秒20万点云成图,测量距离70米,支持360°水平视角全域覆盖 [1][29] - 支持超20万平米以上的大场景扫描,相对精度优于3厘米,绝对精度优于5厘米 [1][22][30] - 采用微秒级同步技术实现多传感器数据融合,搭载高精度多传感器SLAM建图算法,实时输出高精度点云数据 [27][34][35] - 系统支持实时解算和预览,点云数据可输出为pcd、las、plv等多种通用格式 [22] 硬件配置与设计特点 - 设备集成丰富传感器,包括3D激光雷达、9DOF IMU、双广角相机、深度相机及RTK模块,并配备x86计算单元 [13][22][23] - 采用小倾角设计,激光雷达25°倾斜角度安装,兼顾多个方位,无需反复采集 [15] - 硬件尺寸为14.2cm * 9.5cm * 45cm,重量为1.3kg(不含电池),采用航空铝外壳,配备5.5寸触控屏 [22] - 计算单元采用Intel N5095处理器,4核2.0GHz,配备16G内存和256G硬盘(可拓展TF卡) [22] - 供电采用弹夹电池,容量为88.8Wh,续航时间约3-4小时,支持多种输入输出方式 [22][26] 软件功能与易用性 - 设备自带手持Ubuntu系统,支持ROS,软件操作简单直观,一键启动即可执行扫描作业 [3][5][22] - 扫描结果导出即用,无需复杂部署和繁琐处理,支持快速建图、彩色点云建图、数据录制及3D高斯采集等功能 [5][42][43] - 提供3DGS(3D高斯)版本,支持离线渲染和在线渲染两种模式,实现高保真实景还原 [6][7][50] 应用场景与平台适配 - 可广泛用于大型园区、花园场景、老旧街道、市政道路、环形花园、坡道、隧道、森林、矿场等多种复杂室内外场景 [38][39][46][49] - 支持跨平台集成,可适配无人机、无人车、机械狗、人形机器人等多种负载平台,实现无人化作业 [44] - 适用于地理信息数据采集、城市规划、文昌监测、工程数据采集、文化遗产修复研究及虚拟开发等领域 [52][54] 产品版本与定价策略 - 公司推出四种版本:基础版(19800元)、深度相机版(23800元)、3DGS在线版(39800元)、3DGS离线版(67800元) [57][58] - 3DGS在线版包含云服务,续费为5000元/月,并赠送两个月云服务;离线版要求客户自备高性能服务器或由公司另行提供 [58] - 购买后提供为期1年的售后服务,并可根据需求提供专业工程师培训支持服务 [58][60]
上交OccScene:3D OCC生成新框架(TPAMI)
自动驾驶之心· 2025-10-23 08:04
研究背景与核心问题 - 自动驾驶系统研发高度依赖高质量、大规模的标注数据来训练感知模型,但数据获取成本高昂、费时费力[2] - 传统方法将生成模型和感知模型作为两个独立环节处理,导致生成的合成数据可能不符合真实世界的物理规律和几何结构,对下游感知任务价值有限[2] - OccScene旨在解决生成与感知"学用脱节"的问题,实现两者的深度融合[2] 核心创新与贡献 - 首次实现3D场景生成与语义Occupancy感知的深度融合,通过联合扩散框架达到"1+1>2"的效果[3] - 提出范式创新的联合学习框架,感知模型为生成提供精细几何与语义先验,生成的合成数据反哺感知模型,形成良性循环[5] - 设计基于Mamba的双重对齐模块,高效对齐相机轨迹、语义Occupancy与扩散特征,确保生成内容的跨视角一致性和几何精确性[5][14] - 仅需文本提示即可同时生成高质量图像/视频及对应的3D语义占据信息,并能显著提升现有SOTA感知模型性能[5] 技术架构与实现方法 - 采用联合感知-生成扩散框架,将语义Occupancy预测与文本驱动生成统一到单个扩散过程中[8] - 实施两阶段训练策略:第一阶段冻结感知模型权重,训练扩散UNet理解Occupancy几何约束;第二阶段联合优化,同时训练扩散UNet和感知模型实现双向促进[9][10] - 设计动态加权损失函数,通过噪声水平进行动态加权,在去噪早期感知监督权重较低,随着图像变清晰监督权重逐渐增强,确保训练稳定性[11][13] - 推理过程采用独特的闭环自我优化机制,实现"边生成、边感知、边校正",确保最终生成结果的几何一致性和语义准确性[17][19] 性能表现与实验结果 - 在NYUv2室内数据集上,OccScene的FID指标为15.54,显著优于SD的47.82和ControlNet的50.61[21] - 在NuScenes室外数据集上FID为11.87,在SemanticKITTI数据集上FID为19.86,FVD为113.28[21] - 作为数据增强策略可显著提升感知模型性能:在NYUv2数据集上使MonoScene的mIoU从26.94提升至29.78;在SemanticKITTI数据集上使TPVFormer的mIoU从7.8提升至12.2[25] - 消融实验显示联合学习策略相比离线生成,在FID指标上从28.52提升至19.86,mIoU从12.94提升至15.70[27] - Mamba-based MDA模块相比Attention架构推理时间从4.09秒减少至2.76秒,节省32.5%的时间[27] 应用价值与行业影响 - 为自动驾驶仿真生成高保真、多样化的驾驶场景,特别是各种极端场景,以低成本增强系统鲁棒性[32] - 为机器人与AR/VR领域的室内外场景导航、交互提供可控、可编辑的虚拟环境[32] - 作为即插即用的数据生成器,为各类下游3D视觉任务提供高质量训练数据,有效解决数据稀缺问题[32]
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 08:04
文章核心观点 - 算法、框架和部署技术的演进正深刻影响未来端侧芯片的设计,当前端侧芯片在支持大模型时面临效率未达上限的挑战 [1][2] - 视觉与语言大模型带来的性能飞跃使Transformer架构支持势在必行,但其计算复杂度对端侧设备的算力和带宽提出巨大需求 [4] - 线性注意力、动态稀疏MoE、低比特量化和Token压缩是未来端侧芯片设计需重点关注的四大确定性技术趋势 [5][7][11][14] 注意力机制演进对芯片设计的影响 - Transformer自注意力机制的计算复杂度与序列长度呈平方关系,对prefill阶段算力和decode阶段带宽构成挑战 [4] - 线性注意力机制通过核函数近似将计算复杂度降至线性水平,RWKV、Mamba、DeltaNet等属此路线 [5] - 稀疏注意力通过将序列长度n变小来突破瓶颈,DSA、MoBA等技术是典型代表,今年ACL最佳论文DSA即属此类 [5] - 对端侧芯片而言,注意力机制变体影响有限,只要算子可融合则计算效率依然高,通道数、head数及SRAM容量是更关键瓶颈 [5] 动态稀疏与MoE技术的影响 - MoE技术在推理阶段只激活部分专家,14B稠密模型与30B-A3B稀疏模型相比,后者性能更好且推理时省算力、省带宽 [8] - 单batch场景下MoE优势明显,但多batch decode阶段带宽需求几乎等同于30B稠密模型,此时反而不如稠密模型 [8] - 蚂蚁集团MoE模型(100B-A6.1B及端侧16B-A1.4B)展现出稀疏性加大趋势,未来MoE技术将驱动芯片向大内存、中带宽、中算力方向发展 [9] - MoE模型压缩是工业界需关注的重点,例如MoNE等工作致力于降低内存需求 [9] 低比特量化技术趋势 - Deepseek采用FP8训练开启低比特量化新时代,端侧大模型对4bit及以下量化有更激进需求 [11] - 技术呈现四大特性:权重专用量化(如GPTQ、AWQ)以解决decode带宽瓶颈;低精度浮点与定点数两条技术路线;细粒度量化提升精度;动态与静态量化的权衡 [11][12] - 混合量化是未来趋势,尤其适合处理大模型层内层间数值不平衡问题,在MoE模型上有更大应用潜力 [12] Token压缩技术的影响 - Token维度压缩极大降低端侧大模型应用门槛,视觉Token数量远超文本Token且冗余度高,是压缩重点 [14] - FastV、PyramidDrop、Holov、LightVLM、SpecPrune-VLA等工作近期呈现井喷式发展 [14] - 对芯片设计而言,Token压缩技术是纯收益,能够直接降低计算量 [14]
端到端和VLA,正在吸引更多智驾公司的关注......
自动驾驶之心· 2025-10-23 08:04
端到端与VLA自动驾驶行业需求 - 主机厂和供应商对端到端及VLA技术人才的需求旺盛,反映出行业技术迭代加速 [1] - 端到端自动驾驶算法主要分为一段式和两段式两大技术范式,其中UniAD是一段式的代表性工作 [1] - 基于VLA的端到端算法是当前学术和工业界的热点,相关论文呈爆发式增长并正推动量产落地 [1] 端到端与VLA技术栈 - 核心技术涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多个前沿领域 [3] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及VLA等多种实现路径 [1] - 从模块化算法演进至端到端,再发展到VLA,代表了自动驾驶技术发展的主要方向 [3] 自动驾驶VLA与大模型实战课程 - 课程由学术界专家主导,系统梳理从VLM作为解释器到模块化VLA、一体化VLA及推理增强VLA的技术体系 [3] - 课程内容涵盖Vision/Language/Action三大模块,并设有大作业指导学员从零搭建VLA模型及数据集 [3] - 授课教师来自清华大学及QS30高校,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,GitHub项目总Star数超过2k [8][11] 端到端与VLA自动驾驶课程 - 课程由工业界专家主导,重点讲解一段式/两段式端到端算法的核心理论与模型 [12] - 课程设计包括基于扩散模型的Diffusion Planner和基于VLA的ORION算法两大实战项目 [12] - 授课教师为国内顶级主机厂算法专家,拥有端到端及大模型算法的预研和量产交付经验 [14] 课程目标人群要求 - 学员需自备GPU,推荐算力为4090及以上 [15] - 要求学员具备一定的自动驾驶领域基础,并熟悉Transformer、强化学习、BEV感知等基本概念 [16] - 学员需拥有概率论、线性代数基础,并掌握Python和PyTorch编程能力 [16]