端到端模型
搜索文档
明星公司全部员工停工放假,公司剩不到300人,高管曾放话“不存在死这件事”
21世纪经济报道· 2025-11-29 21:47
记者丨易思琳 编辑丨吴晓宇 近日,智驾供应商毫末智行向在职员工发布了一份《停工放假通知》,通知员工从2025年11月24日起,公司及分公司全部在职员工停工放假。 消息并不突然,今年年中,毫末也曾发布过一次停工通知,当时有部分员工选择主动离职。截至目前,公司只剩下不到300人。而据《21汽车· 一见Auto》获悉,去年9月,公司还有近800人,其中700人在攻克乘用车相关的智驾技术研发。同一时期,毫末还曾挥金招兵买马。当时毫末 智行开放的高端岗位有十余个,职级至少是H4级,有些会直接汇报给CEO顾维灏。 毫末智行,由长城汽车在2019年孵化,一度是智驾明星公司。由于背靠长城,毫末起初的量产订单主要源于长城,并在很长一段时间是长城唯 一一家智驾供应商。长城旗下魏牌、坦克、哈弗等品牌,近20款车型都搭载毫末的智驾系统。 但这一境况却在2023年年末被改变,也成为毫末智行命运急转直下的开始。 魏牌蓝山在2023年首次上市时,搭载的还是毫末的智驾方案,但因为城市NOA功能迟迟未量产,后改用另一家智驾公司元戎启行的方案。 《21汽车·一见Auto》获悉,元戎启行正式拿到魏牌蓝山的定点始于2023年11月。知情人士称,元戎 ...
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 08:49
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 广州车展理想披露了一些新的信息,分享给大家。 理想在端到端+VLM量产的后期发现了两个主要问题: 下图是理想智驾MPI和版本的关系,期望VLA达到1000+ 的MPI。 下图是之前MindVLA的架构,串行VLA。 柱哥也在等小鹏VLA的量产版本,后续会做一下试乘对比。 (自动驾驶之心长期关注学术界 & 工业界的前沿进展,剖析行业痛点,分析公开方案,读者可添加柱 哥微信:wenyirumo,进一步交流) 1. 训练数据量到达一定水平时,端到端模型性能提升速度变慢。在1000W Clips以后,今年5个月的时间,模型MPI接管里程仅增长2倍左右。单纯增加数据量的收 益已经不高,1000W数据本身包含的场景已经十分丰富,模型性能的提升依赖更高质量的数据。因此在上半年的超期对齐项目中重新调整了训练数据的配比, 增加了生成数据(含corner case极端场景)数量,并增加人工规则确保特殊场景下的安全和合规。 2. 端到端的模仿学习本身不具备深度的逻辑思维能力,这导 ...
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-24 08:03
文章核心观点 - 文章系统回顾了公司在自动驾驶领域的一系列核心技术研究,这些研究构成了一个从感知到规划、再到仿真评测和基础模型的完整技术链路 [2][4][5] - 技术路径从Sparse4D系列融合感知出发,逐步拓展至SparseDrive端到端运动规划,并针对长期迭代需求开发了UniMM交通流仿真和DriveCamSim传感器仿真,最终探索了智驾基础大模型LATR [4][5][30] - 认为端到端模型是行业明确方向,但未来性能提升高度依赖于高效、准确的云端评测系统,而非完全依赖实车测试 [22][30][31] 3D融合感知(Sparse4D系列) - Sparse4D系列采用稀疏query加内外参投影采样的方式,直接从多视角图像特征得到融合感知结果,理论计算复杂度远小于BEV方案 [6][7] - Sparse4D v1核心是deformable aggregation算子,实现了纯稀疏范式的融合感知 [7] - Sparse4D v2将时序融合方式改为recurrent形式,时序复杂度从O(T)降低至O(1),并优化了算子实现,提升了训练推理速度和模型性能 [9] - Sparse4D v3通过temporal denoising、decouple attention等技术提升性能,并以简洁方式实现了联合检测与跟踪,在nuScenes camera-only detection和tracking榜单位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D基础上,增加了online mapping任务并设计了运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 采用稀疏feature作为planner输入,通过大量负样本query覆盖所有可视范围,以应对非白名单物体的避障问题 [15] - 当前规划decoder结构较简单,且仅在nuScenes上进行开环评测,闭环性能有待通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - EDA提出了动态更新的anchor概念,并采用NMS策略进行匹配,能有效建模轨迹预测的多峰分布,且可与多数预测模型即插即用 [16][17] - 轨迹预测是连接感知和决策的中间件,但其应用受感知噪声和下游使用复杂性限制 [19] - UniMM将交通流仿真的主流模型Continuous Mixture Models和GPT-Like Discrete Models进行了统一,并提出了通用算法框架 [20] - 交通流仿真通过每一步重新采样的方式绕开直接建模多车联合概率,比联合轨迹预测更能反映算法真实性能 [19][20] 传感器仿真(DriveCamSim) - DriveCamSim旨在构建高度可控的传感器仿真系统,通过显式投影约束3D-2D和时序一致性,解耦了时间和空间概念 [23][24] - 模型可生成任意帧率、任意相机内外参、任意相机数量下的图像,适应的condition包括3D bounding box、地图、自车pose等 [24] - 相比于基于3DGS的重建方案或完全依赖Attention的生成方案,该方法在可控性和一致性上具有显著优势 [23][24] 智驾基础模型(LATR) - LATR目标是通过海量数据无监督训练和大参数量,构建能理解智驾场景语义、空间和时空关系的基础模型 [26] - 采用Mask Image Modeling进行预训练,并通过精心设计的masking策略加大补全难度以提升训练效果 [26] - 设计了decoder-only的统一架构,将7个任务融合到同一框架中,新增任务仅需增加一个MLP,最大程度复用预训练参数,效果达到与SparseDrive相当的水平 [27]
理想主动安全负责人发文《主动安全之死》
理想TOP2· 2025-11-21 00:15
文章核心观点 - 主动安全技术正经历从基于规则的传统方法向模型化或端到端技术的根本性转变,这将带来业务质的飞跃 [15][18] - 激光雷达对于提升主动安全性是必要的,尤其是在人类驾驶占主导的当下,能极大程度弥补人眼和视觉系统的感知局限 [6] - 主动安全业务的长期发展是“向死而生”,随着事故减少和高级别自动驾驶的到来,其形态将发生涅槃重生,而非彻底消亡 [16][18] 主动安全与辅助驾驶的关系 - 辅助驾驶系统根据导航全程控制车辆,将用户送至目的地,在L2阶段需要人类监督 [2] - 主动安全功能通过预警、刹车、转向等方式,在人类或系统驾驶时拦截潜在碰撞风险,其控制权会短暂“抢占”车辆 [2] - 主动安全的目标更纯粹:无论何种驾驶方式或驾驶者,核心是避免碰撞 [3] 激光雷达的必要性 - 对于主动安全,激光雷达可以极高程度提高安全性,短期看是必须的 [6] - 人类是交通事故主因,其驾驶决策并非仅围绕安全,常将车辆置于“冒险”状态 [6] - 人眼感知依赖光照条件,在逆光、炫光、无光或目标纹理与环境难区分时存在局限,激光雷达可有效弥补 [6] - 雨雪天气下激光雷达性能受影响的争议被指出意义不大,因这类天气在全量驾驶里程中占比不足10% [6] 传统主动安全技术的瓶颈 - 当前基于枚举场景和规则代码的开发方式,难以覆盖用户真实事故的纷繁复杂性,例如醉汉突然摔倒、两轮车突然切入等场景 [8][10] - 串联式技术架构在信息传递过程中存在信息损耗和校验时延,增加处理时间 [12][13] - 安全领域毫秒必争,该架构对复杂场景(如人群中冲出的行人、夜间鬼探头等)应对能力存在瓶颈 [11] 模型化/端到端技术的优势 - 模型化或端到端技术可极大缓解传统规则方法的两个核心问题,并对复杂场景的泛化应对立竿见影 [15] - 规则方法被比喻为“在烧饼里捡芝麻”,而模型化则是“一口一口吃芝麻”,处理效率更高 [15] - 对于主动安全所需的极短时序(约10秒)本能安全反应,端到端技术无比适合 [15] 主动安全业务的未来演进 - 业务呈现“向死而生”态势:人类驾驶事故不断减少,以及未来L3/L4级自动驾驶系统的谨慎策略,都可能降低其对传统主动安全的需求 [16] - 传统主动安全将成为过去式,但通过模型化技术的应用,业务将凤凰涅槃,在未来三年内出现超乎想象的进步 [18] - 规则与模型在安全领域相辅相成,行业内部将专注于如何共创未来,持续优化以降低事故概率和烈度 [18]
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
FSD用多了会变傻:逆行闯红灯幻觉严重,50多起事故后,特斯拉被调查了
36氪· 2025-10-10 15:57
调查概况 - 美国国家公路交通安全管理局(NHTSA)于2025年10月7日启动针对特斯拉全自动驾驶(FSD)系统的新调查,调查编号为PE25012 [2] - 调查范围涵盖所有配备FSD(Supervised)或FSD(Beta)功能的特斯拉车辆,估计涉及车辆总数为2,882,566辆,这几乎是特斯拉在北美市场的全部历史累计销量 [2][10] - 调查由用户车辆问卷、常规指令报告及媒体报道共同促成 [2] 具体安全问题 - 调查集中在两类交通违法行为:FSD系统无视交通信号灯违规通行,以及FSD系统走错车道 [2][3] - 关于闯红灯问题,NHTSA确认收到18起投诉,其中4起事故导致人员受伤 [2] - 多起闯红灯事故集中发生于马里兰州乔帕市的同一路口,公司已针对该路口采取整改措施,这表明在V14版本之前,FSD系统无法完全依赖数据驱动,仍需对特定场景进行手动优化 [3] - 关于走错车道问题,确认收到18份投诉,涉及场景包括转弯过程中驶入对向车道、直行时越过双黄线、或无视逆行路标试图驶入禁行道路 [3] - 官方文件显示,总计收到58份使用FSD时违反交通安全规定的事故报告,共造成23人受伤 [3][8] 系统性能表现与监管挑战 - 第三方机构AMCI Testing在总计1000英里(1600公里)的测试中发现,FSD系统在启动初期(如前5分钟)表现优秀,但问题往往在系统运行一段时间后出现,呈现性能下降趋势 [3][6] - NHTSA的审查将评估系统是否对操作行为发出充分警告、给予驾驶员的响应时间是否充足、以及系统识别交通信号灯、车道标线和逆行标志并作出恰当响应的能力 [10] - 调查还将重新评估每次OTA更新是否影响FSD系统遵守交通法规的表现 [10] - 传统监管调查周期通常长达18个月或更久,这与AI技术的快速迭代规律存在矛盾,公司可能利用监管的迟滞性作为技术发展的窗口期 [13][15] 技术背景与行业影响 - 此次暴露的问题很可能与端到端模型的“幻觉”问题相关,行业当前主流解决方案是通过大语言模型加强模型认知 [11] - FSD V14版本已展现出类似的环境理解认知能力,但端到端模型的“黑盒”特性使得精准归因和调参十分困难,公司可能通过技术体系重构(如过渡到一段式端到端)来在整体层面提升系统能力 [11] - 除本次调查外,公司目前仍面临另外4起由NHTSA进行的调查,涉及远程挪车事故、恶劣天气条件下的事故以及Robotaxi落地部署合规性等,且每次调查范围均涵盖公司历史累计交付的所有车辆 [13]
自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?
自动驾驶之心· 2025-10-09 07:33
自动驾驶技术发展现状与路径 - 特斯拉在自动驾驶体验和效果上被多位专家认为是行业领先者 [9][14] - L4级别自动驾驶已由Waymo和萝卜快跑实现,但L5级别可能还需至少5年时间 [4] - 端到端模型已能解决约90%的驾驶问题,特斯拉将其做到极致,安全性基本得到保证 [5] 技术路线与核心模型 - 视觉语言动作模型被认为是自动驾驶的终局方案,因其能利用语言模态进行推理,处理需要认知推理的长尾问题 [5][6] - 世界模型是对物理空间和运行规律的更本质建模,但技术难度更大 [9] - 端到端模型存在多种架构:一段式端到端、一段式模块端到端以及OneModel端到端 [11][12] 关键技术与传感器 - 4D毫米波雷达被视为纯视觉系统的良好冗余,当系统复杂度达到几千几万MPI时冗余的重要性凸显 [5] - 激光雷达在成本下降后与纯视觉方案相比无明显劣势,提供精确距离感知冗余的融合方案可能是终极方向 [17] - 语言模态对于自动驾驶至关重要,缺乏语言推理能力将导致车辆无法理解世界而出错 [5] 人才与专业发展 - 人工智能是未来研究自动驾驶的首选专业方向,因自动驾驶问题可能在4年内基本解决,但AI方向长期正确 [4] - 对于职业发展,建议先进入大型智驾公司培养体系化工程思维,机器人领域在产品化和工程成熟度上仍处于探索阶段 [16] 市场与区域对比 - 中国智能驾驶发展态势远优于国外市场,目前除特斯拉外,没有国外智驾方案能在中国市场发布 [10] - 国内公司与特斯拉的差距主要体现在算法和软件工程的流程规范上,但从用户体验角度看差距不大 [14][15] 机器人及具身智能 - 在机器人领域,实用功能的发展速度和商业价值远高于身体协调性和美感 [7] - 大模型背景的研究人员转向具身智能领域相对容易,真正的竞争力在于模型规模、创新和真机跨本体泛化能力 [5]
自动驾驶的流派纷争史
36氪· 2025-09-28 10:50
自动驾驶商业化进展 - 截至2025年5月 Waymo在美国4个城市运营1500辆自动驾驶出租车 每周完成超25万次付费出行服务[1] - 百度Apollo全球部署超1000辆无人驾驶汽车 累计提供超1100万次出行服务 安全行驶里程超1.7亿公里[1] 传感器技术路线分歧 - 纯视觉方案采用8个环绕摄像头模拟人类视野 依赖深度学习算法从二维图像重建三维环境 成本极低适合大规模商业化[7] - 多传感器融合方案以激光雷达为主 可生成精确3D点云图 早期造价达7.5万美元 但能应对恶劣天气条件[5][9] - 主流车企包括Waymo、小鹏、蔚来选择多传感器融合 认为安全冗余是不可逾越的红线[9] 传感器内部选择差异 - 激光雷达角分辨率极高 能清晰分辨行人姿态和车辆轮廓 是L4/L5自动驾驶必备传感器[11] - 4D毫米波雷达成本仅数百元 具备强大穿透能力 可在恶劣天气下工作 但点云稀疏无法勾勒物体轮廓[13] - L4 Robotaxi和豪华车采用"激光雷达为主 毫米波雷达为辅"策略 L2+/L3经济车主要依赖"摄像头+毫米波雷达"方案[15] 系统架构发展路径 - 模块化设计将驾驶任务拆分为感知、预测、规划、控制等独立子任务 可解释性强且易于调试[16] - 端到端模型直接将传感器原始数据映射到驾驶控制指令 全过程无信息损失但存在黑箱难题[18] - 行业出现"显式端到端"折中方案 保留可行驶区域等中间输出以平衡性能与可解释性[18] 大模型应用方向 - VLM视觉语言模型追求过程可控 利用图像-文本配对数据预训练 技术相对成熟更易落地[19][23] - VLA视觉语言动作模型主张模型自主学会驾驶规则 需要海量视频-控制信号配对数据 训练成本高昂[21][23] - Waymo、Cruise、华为、小鹏选择VLM路线 特斯拉、吉利和理想探索VLA路线[25] 技术融合趋势 - 纯视觉方案开始引入更多传感器 多传感器融合方案中视觉算法地位提升[9] - 模块化架构开始吸收端到端优势 大模型为所有系统注入认知智能[25] - 激光雷达与视觉正在融合为多模态感知系统[25]
具身智能,为何成为智驾公司的下一个战场?
雷峰网· 2025-09-26 12:17
行业趋势与市场前景 - 具身智能已成为智能驾驶创业者的新战场 多家前智能驾驶高管转入具身智能领域创业[2] - 2025年中国具身智能市场规模预计达52.95亿元 占全球市场约27%[3] - 人形机器人市场规模预计达82.39亿元 占全球约50% 多家企业宣布2024年量产千台人形机器人[3] - 行业保持40%以上年增长率 为智能驾驶公司提供新增长渠道[21] 技术融合与转型基础 - 智能驾驶与具身智能共享"具身认知"理论框架 均需通过物理实体与环境互动实现智能[6] - 技术架构高度一致 包含感知层(多传感器融合)、决策层(路径规划)、控制层(运动控制)、仿真层(虚拟测试)四大层级[7] - 感知技术通用性构成第一支柱 SLAM技术同时应用于机器人导航和自动驾驶高精度定位[8][9] - 决策算法迁移性构成第二支柱 基于深度强化学习的端到端决策系统可双向迁移[10] - 控制系统适应性构成第三支柱 运动控制的动力学建模和实时控制原理高度一致[11] 企业布局与产品进展 - 地平线机器人、知行科技等通过投资并购和设立子公司布局具身智能[4] - 知行科技2024年12月启动具身智能调研 通过收购小工匠机器人获得关节及机械臂开发能力[10][13] - 推出首款大小脑一体化主控制器iRC100 集成128 TOPS算力 支持BEV Transformer和VLA算法部署[14][17][19] - 采用单SoC架构解决多芯片协同痛点 支持各类传感器和执行器接入[16][18] 商业模式与战略价值 - 形成"人形机器人+专用机器人"双线发展格局 智能驾驶公司可根据技术优势选择切入点[22] - 专业服务机器人毛利率达50%以上 显著高于自动驾驶套件15-25%的水平[23] - 具身智能产品具更强差异化和更低边际成本 核心模块开发后场景适配成本近乎为零[25] - 技术界限逐渐模糊 特斯拉将自动驾驶汽车视为"轮式机器人"并共享AI芯片架构[26]
斑马智行司罗:智能座舱正经历范式重构,端到端+主动感知成破局关键
中国经济网· 2025-09-22 17:07
核心观点 - 智能汽车作为Physical AI的重要载体,正成为具身智能的压力测试场,智能座舱是继智能驾驶后对接用户体验与互联网AI生态的核心入口,已成为黄金赛道 [3] - 智能座舱的技术发展正经历从验证期、应用期到重构期的演进,行业从传统流水线架构转向端到端模型,实现交互范式的重构 [4][5] - 基于端到端架构与主动感知技术,智能座舱正从被动响应转向主动感知,并朝着成为物理空间AI生态核心枢纽的方向迈进,推动万亿级商业市场 [5] 智能汽车作为Physical AI载体的特征 - 智能汽车场景具有高复杂性,需融合语音、视觉、传感器等多模态输入,同时打通出行、办公、家庭等跨场景需求 [3] - 智能汽车场景具有高安全性,需满足毫秒级响应要求并通过ASIL-D等工业强标认证 [3] - 智能汽车场景具有高商业价值,斑马智行已与行业伙伴合作落地800多万辆车,验证了技术规模化应用的可行性 [3] 智能座舱的五层融合架构 - 芯片与算力层以英伟达、高通及崛起的国产化芯片为核心,构成算力支撑基础 [4] - 系统层由斑马智行、华为等企业主导,通过操作系统、虚拟化、安全技术等提供高效系统级服务 [4] - 大模型层融合通用大模型与车载垂直领域大模型,重点解决车内多模态处理、数据安全与隐私保护问题 [4] - 智能体层承担中枢决策功能,精准识别用户需求并调度对应服务模块 [4] - 平台服务层基于自然语言交互实现AI原生服务直达,最终完成交互范式升级 [4] - 五层架构是环环相扣的有机整体,共同支撑智能座舱的技术迭代 [4] 智能座舱技术发展节奏与范式重构 - 2024至2025年初为验证期,核心解决大模型能否上车的基础问题 [4] - 2025年进入应用期,重点推进智能体体系上车,通过智能体的组织与规划实现实际服务落地 [4] - 当前至2026年迎来重构期,行业从传统流水线架构转向端到端模型 [4] - 端到端模型可实现多模块一体化处理,已在斑马智行的实践中实现5倍人机交互速度提升,为舱驾融合与多域聚合智能闭环奠定基础 [5] 交互体验升级方向 - 智能座舱正从被动响应转向主动感知,通过视觉、听觉传感器,智能助手能主动识别场景需求 [5] - 智能座舱从听话的工具升级为贴心的伙伴 [5] - 未来的智能座舱不仅是出行工具的延伸,更会成为物理空间AI生态的核心枢纽 [5]