自动驾驶之心
搜索文档
Momenta和华为智驾谁能胜出?
自动驾驶之心· 2026-01-02 16:08
文章核心观点 - 文章通过回顾海思在安防芯片市场的成功历史,类比并预测智能驾驶行业的发展趋势,认为在技术变革期,通过底层技术的垂直整合,极大降低下游客户开发难度和使用成本的模式将掌握行业定价权和统治权 [17] - 在智能驾驶时代,市场竞争格局将类似安防行业历史,能够提供“芯片+解决方案”垂直整合的供应商(如地平线、华为)将更具优势,而传统的纯软件算法供应商(如Momenta)将面临挤压 [24][31][32] - 行业正走向标准化,2026年是关键转折点,谁能率先定义15万元级别车型的智驾标准方案,谁就能掌握行业话语权,最终市场格局可能收敛为:中高端采用华为方案,中低端采用地平线方案 [36][37][38][43][45] 历史类比:海思在安防芯片市场的成功模式 - **早期市场格局(2004-2010年)**:全球视频监控市场从模拟向数字、网络监控转型,行业话语权掌握在德州仪器(TI)和安霸(Ambarella)等半导体巨头手中 [3][4] - **传统芯片厂商模式的问题**:TI提供通用DSP芯片(如DM365、DM368),下游安防厂商需投入庞大软件团队和长达一至两年的研发周期进行底层开发;安霸方案虽图像效果卓越,但定位高端、架构封闭且昂贵,令大多数中国厂商却步 [5][7][8] - **海思的颠覆性商业模式**:2007年通过与大华股份签订合同切入安防赛道,其核心是“买芯片,送解决方案”的“交钥匙”(Turnkey)模式 [11][12] - 将复杂的视频编解码、图像处理(ISP)及初级AI算法通过硬件加速方式固化在SoC芯片内核中 [12] - 下游厂商(如海康威视、大华股份)无需深厚算法积累,可按参考设计在几个月内推出高性能、低功耗产品,大幅降低技术门槛和成本 [12][15] - **海思取得的统治地位**:2010年后大规模进入海康威视,其DVR芯片在鼎盛时期占据全球79%的市场份额,TI于2016年左右因此退出安防市场 [15] - **海思模式的关键**:在芯片端直接打包赠送昂贵算法(如免费集成“车牌识别”算法),催生新市场,通过“算法与芯片深度绑定”的垂直整合,基于“效率与成本”建立行业统治力 [16][17] 智能驾驶行业的竞争格局与核心玩家 - **主要竞争方分析**: - **华为乾崑ADS**:试图在汽车领域实现“芯-硬-软-云”的全栈闭环,类似海思模式,但汽车产业复杂度更高,涉及品牌调性、全球化准入等更多因素 [27][30] - **地平线**:被视作“软件公司伪装成的芯片公司”,是Momenta的主要竞争对手 [21][24] - 自研BPU架构芯片(如征程6P)并深度优化算法,打造“样板房”方案 [23] - 其自研的SuperDrive (HSD)方案是国内首个全栈自研的城市智驾系统,正在挤压第三方算法供应商的空间 [22][24] - **车企自研**:如比亚迪、蔚小理等,通过自研芯片实现软硬一体化,追求极致差异化和掌控力,但研发成本极高 [29][34] - **车企的智能化转型路径**: 1. **全栈自研(封闭系统)**:服务于自身品牌,研发成本高 [34] 2. **“买芯片+改方案”的灵活模式**:地平线定位为“武器库”,提供从芯片IP授权、工具链到“样板房”算法开源的多种开放模式,供车企二次开发 [34] 3. **深度绑定技术合伙人**:车企与Momenta或地平线等建立联合开发体系,以对冲研发成本和人才风险 [34] 行业发展趋势与未来预测 - **标准化与收敛趋势**:智能驾驶域控方案供应格局将趋于收敛,智驾方案标准化程度将显著提升,这是法规制定和产品规模化落地的根本前提 [35][36][39] - **关键时间点与竞争焦点**:2026年被视为L3级自动驾驶的转折点,行业将从依靠“配置冗余”的探索阶段,迈向硬件、算法、算力协同方案统一的新阶段 [37][38] - 竞争焦点从比拼技术上限转向比拼“系统效率优化” [40] - 谁能率先定义15万元级别车型的智驾标准方案,谁就能掌握行业话语权 [43] - **市场格局预测**: - 地平线依托超过1000万套的芯片出货量,已在大量国产自主品牌中形成事实上的硬件底座标准 [41] - 车企最终将投票给能提供“高兼容性、低成本且符合标准化趋势”的平台 [42] - 除去车企自研,未来市场可能呈现:中高端车型采用华为乾崑智驾方案,中低端车型采用地平线全栈交付方案 [44][45] - 传统的供应商模式在智驾时代面临挑战 [44]
智能汽车产业链全景图(2025年12月版)
自动驾驶之心· 2026-01-01 11:05
主机厂 - 文章列举了全球及中国主要汽车制造商,包括起亚、吉利、沃尔沃、捷豹路虎、极氪、蔚来、小米汽车、小鹏汽车、理想汽车、零跑汽车、江淮汽车、奇瑞、长城汽车、保时捷、赛力斯、北汽新能源、Rivian、VinFast、江铃汽车、阿维塔、岚图、东风汽车、广汽埃安、腾势、极狐汽车、乐道汽车、极石汽车、创维汽车等 [2][3][4][5][6][7][8][9][11][12][13][14][15] ADAS/自动驾驶Tier1供应商 - 高级驾驶辅助系统及自动驾驶一级供应商包括德赛西威、华阳集团、华为、百度Apollo、东软睿驰、Momenta、轻舟智航、福瑞泰克、商汤科技、宏景智驾、智驾科技、经纬恒润、地平线、小马智行、博世、安波福、采埃孚、现代摩比斯、麦格纳、法雷奥等 [16][17] 感知系统供应商 - **高精度定位**:供应商包括六分科技、导远电子、华测导航、千寻位置、北斗星通、时空道宇、海格通信、移远通信、真点科技、经纬恒润等 [18][19] - **激光雷达**:供应商包括Luminar、Innoviz、禾赛科技、速腾聚创、华为、览沃科技、探维科技、北醒光子等 [21] - **毫米波雷达**:供应商包括博世、大陆、电装、安波福、麦格纳、法雷奥、现代摩比斯、承泰科技、楚航科技、华域汽车、华为、弗迪科技等 [21][22] - **红外夜视**:供应商包括Teledyne FLIR、AdaSky、Lynred、睿创微纳、海康微影等 [22][23] - **视觉感知**:供应商包括电装、博世、安波福、松下、大陆、麦格纳、现代摩比斯、LG、法雷奥、MINIEYE、经纬恒润、天瞳威视、欧菲光、海康威视、中科慧眼、华为等 [23][24] 舱驾融合与域控制器 - **舱驾融合**:解决方案供应商包括博世、安波福、伟世通、德赛西威、华为、百度Apollo、福瑞泰克、宏景智驾、创时智驾、知行科技、卓驭科技、大疆车载、亿咖通、佑驾创新、东软集团、智行者、博泰车联网等 [25] - **智能域控制器**:供应商包括博世、采埃孚、麦格纳、特斯拉、大陆、安波福、法雷奥、伟世通、德赛西威、知行科技、佑驾创新、联想车计算、小马智行、东软睿驰、华为、宏景智驾、智驾科技、百度Apollo、中信科智联、易航智能、北斗智联等 [26][27] L4级自动驾驶 - L4级自动驾驶解决方案公司包括Mobileye、Waymo、Aurora、百度Apollo、小马智行、法雷奥、Momenta、文远知行、AutoX、元戎启行、智行者、赢彻科技、智加科技、驭势科技、轻舟智航、希迪智驾等 [28][29] 车云、数据与仿真 - **车云与OTA**:供应商包括艾拉比、Airbiquity、红石阳光等,云服务商包括亚马逊、微软、华为、谷歌、腾讯、百度、阿里等 [29][30][31] - **数据闭环**:供应商包括福瑞泰克、亮道智能、智协慧同、无问智科、如祺出行、智驾科技、优咔科技、全道科技等 [32] - **高精地图**:供应商包括四维图新、光庭信息等 [33] - **仿真测试**:供应商包括51WORLD、PANOSIM、智行众维、赛目科技、深信科创、经纬恒润、Unity、NVIDIA、西门子、dSPACE、MathWorks、Ansys等 [34][35][36][37][38] 功能安全与信息安全 - **功能安全**:解决方案供应商包括经纬恒润、博世、大陆、维克多、新思科技、赛目科技、亚远景科技等 [40] - **信息安全硬件**:供应商包括芯钛科技、宏思电子、国民技术、紫光同芯、万协通等 [42][43] - **信息安全软件**:供应商包括安般科技、开源网安、安势信息、悬镜安全等 [43][44] - **车联网信息安全**:供应商包括为辰信安、云驰未来、天融信、智联云安等 [45][46][47] 商用车ADAS - 商用车高级驾驶辅助系统供应商包括经纬恒润、所托瑞安、鸿泉物联、东软睿驰、中科慧眼、安智杰、佑驾创新、清研智行、极目智能、魔视智能、智驾科技、威伯科、克诺尔等 [48][49] 智能座舱 - **座舱Tier1**:供应商包括博泰车联网、东软集团、华为、德赛西威、亿咖通、中科创达、华阳集团、科大讯飞、北斗智联、斑马智行、车联天下、远峰科技等 [50][51][52] - **座舱平台与域控制器**:供应商包括哈曼、伟世通、佛瑞亚、安波福、博世、大陆、电装、马瑞利、德赛西威、均胜电子、中科创达、航盛电子、北斗智联、四维图新、亿咖通、诚迈科技、光庭信息、东软集团、华阳集团、诺博汽车、均联智行、镁佳科技、华勤技术、LG电子、松下汽车等 [54][55] - **座舱SoC**:芯片供应商包括高通、AMD、瑞萨电子、英特尔、三星、英伟达、恩智浦、泰利克斯、德州仪器、芯驰科技、芯擎科技、海思科技、联发科、杰发科技、瑞芯微、紫光展锐、开阳电子等 [56][57] - **操作系统**:包括Linux & AGL、Android、AliOS、QNX、华为鸿蒙、webOS、ROS、Ubuntu等,供应商包括EB、东软睿驰、中科创达、诚迈科技、普华基础软件、中兴通讯等 [60] - **交互技术**:语音交互供应商包括科大讯飞、思必驰、赛轮思、云知声、SoundHound、出门问问、百度、腾讯、阿里、商汤科技等 [61] - **显示系统**:Tier1供应商包括大陆、电装、伟世通、博世、佛瑞亚、马瑞利、德赛西威、华阳集团、航盛电子、华为、光峰科技、哈曼等,面板供应商包括LG Display、JDI、天马微电子、京东方、TCL华星光电、群创光电、维信诺、海微科技、惠科等 [61][62] - **HUD**:供应商包括日本精机、大陆、松下、LG、哈曼、现代摩比斯、华阳多媒体、水晶光电、华为、东软集团、经纬恒润、炽云科技、欧菲光等,核心部件供应商包括京瓷、京东方、歌尔股份、德州仪器、爱普生、瑞萨电子、日亚、艾迈斯欧司朗等 [62][63][65][66] - **T-BOX**:供应商包括大陆、电装、LG、法雷奥、博世、伟世通、哈曼、法可赛、东软集团、联友科技、高新兴物联、慧翰微电子、经纬恒润、德赛西威、弗迪科技、博泰车联网、均联智行、鸿泉物联等 [67][68] - **舱内监控**:供应商包括大陆、麦格纳、Cipia Vision、法雷奥、Emotion3D、Smart Eye、LG电子、迈来芯、艾迈斯欧司朗、经纬恒润、保隆科技、佑驾创新、欧菲光、海康威视、商汤科技、虹软科技、豪威集团等 [69] - **智能表面**:Tier1企业包括大陆、佛瑞亚、延锋、安浦林、均胜电子、敏实集团等,核心供应链包括科思创、杜邦、Tactotek、UltraSense、Marquardt、Canatu、Kurz、麦德美乐思、艾为电子、宁波华翔等 [71][72][73] - **音响系统**:供应商包括歌尔丹拿、马丁洛根、雅马哈、华为Sound、科大讯飞、瑞声科技、哈曼、Dirac、宝华韦健、英国之宝、苏州上声等 [75][76][77][80][81] - **座椅系统**:供应商包括安道拓、佛瑞亚、李尔、丰田纺织、现代坦迪斯、继峰股份、天成自控、延锋国际、泰极爱思、诺博汽车、恺博汽车、麦格纳等 [82][83][84][85][87][89] - **数字钥匙**:供应商包括马夸特、捷德、博世、法雷奥、爱迪德、大陆、电装、科世达、东海理化、银基科技、远峰科技、华阳多媒体、经纬恒润、博泰、清研智行、联合电子等 [90][91] - **电子后视镜**:Tier1供应商包括法可赛、麦格纳、镜泰、东海理化、远峰科技、德赛西威、合肥疆程、经纬恒润、自行科技等,供应链包括欧菲光、京东方、舜宇智领、天马、三星Display、赛灵思、安霸、英迪半导体、黑芝麻智能、爱芯元智、芯驰科技、豪威科技等 [93][94][95][96] - **内饰与照明**:香氛系统供应商包括科德宇、新立科技、四方光电、金海高科、德赛西威、意法半导体等,车顶玻璃供应商包括福耀集团、AGC、板硝子、圣戈班、耀皮玻璃、伟巴斯特等,照明供应商包括艾迈斯欧司朗、小糸、肖特、法雷奥、星宇股份、佛山照明、华域视觉等 [98][99][100][101][102][103][106] - **外饰**:供应商包括马瑞利、安浦林、经纬恒润、麦格纳、大陆、博泽、爱德夏、现代摩比斯、敏实集团、东箭科技、爱信、拓普集团、伯特利等 [107][108] - **手机无线充电**:核心芯片供应商包括瑞萨电子、微芯科技、易冲半导体、伏达半导体、南芯科技、美芯晟、赛腾微电子、智融科技等,模组厂商包括有感科技、华阳多媒体、信维通信、立讯精密、莱尔德、安波福、大陆、LG、欧姆龙等 [108][109][110][111][112] 车联网 - **商用车车联网**:供应商包括鸿泉物联、鱼快创领、雅讯网络、启明信息、经纬恒掴、英泰斯特、南斗六星、势航网络等 [114] - **TSP(车载信息服务提供商)**:包括亿咖通、仙豆智能、科大讯飞、百度、腾讯车联、斑马智行、博泰车联网、中移智行、联通智网、四维图新、北斗智联、飞驰镁物、安吉星、华为、小米、OPPO、vivo、梧桐车联等 [114][115][116] 汽车生态域与硬件 - 汽车生态域涉及星纪魅族、小米、OPPO、华为、vivo、腾讯、百度、阿里、东软集团、博泰等公司 [118][119] 电动化与底盘 - **转向系统**:供应商包括博世、耐世特、采埃孚、舍弗勒、万都、蒂森克虏伯、日本精工、捷太格特、英创汇智、拓普集团、联创汽车电子、拿森科技、浙江世宝、同驭科技等 [119][120] - **制动系统**:供应商包括博世、大陆、采埃孚、日立、布雷博、万都、芜湖伯特利、英创汇智、格陆博科技、拿森科技、同驭汽车、弗迪科技、拓普集团等 [121][122] - **悬架系统**:供应商包括博世、京西智行、威巴克、大陆、万都、保隆科技、孔辉科技、拓普集团、中鼎股份等 [123] - **底盘域控**:供应商包括博世、采埃孚、大陆、安波福、舍弗勒、意法半导体、瑞萨电子、英飞凌、格陆博、拿森科技、经纬恒润、同驭汽车、比博斯特等 [123][124] - **线控底盘与滑板底盘**:数字底盘供应商包括博世、大陆、采埃孚、舍弗勒、万都、布雷博、日立安斯泰莫、华为等,滑板底盘供应商包括悠跑科技、宁德时代、PIX Moving、速约动力、坤浪科技等 [124][125][126][127][131] - **48V低压系统**:涉及供应商包括博世、TDK、法雷奥、意法半导体、Vicor、安森美、思瑞浦、英诺赛科、联合汽车电子、安波福等 [133] - **800V高压系统**:供应商包括博格华纳、纬湃科技、舍弗勒、采埃孚、Vicor、麦格纳、联合汽车电子、汇川技术、欣锐科技、威迈斯、富特科技、安波福、英飞凌等 [134][135] - **一体化电池**:供应商包括宁德时代、中创新航、蜂巢能源、远景动力、亿纬锂能、LG新能源、弗迪电池、瑞浦兰钧、欣旺达动力、力神电池等 [136][137][138] - **车载电源**:供应商包括联合汽车电子、LG新能源、智新控制、威睿电动、舍弗勒、博世、安波福、法可赛、经纬恒润、意法半导体、英飞凌等 [140][141] - **电驱动及动力域**:供应商包括华为、汇川动力、英搏尔、巨一科技、智新科技、联合汽车电子、蜂巢传动、钧联电子、经纬恒润、采埃孚、博格华纳、舍弗勒、纬湃科技等 [142] - **热管理系统**:供应商包括电装、三花智控、飞龙股份、马勒、大陆、松芝股份、法雷奥、华域汽车、翰昂、银轮股份、盾安环境、美的威灵、森萨塔、联合电子、中鼎股份等 [143][144][146][148][149][150][152] 汽车半导体与芯片 - **ADAS/AD自动驾驶芯片**:供应商包括英伟达、Mobileye、高通、德州仪器、瑞萨电子、安霸、恩智浦、赛灵思、特斯拉、地平线、芯驰科技、黑芝麻智能、芯砺智能、寒武纪、零跑凌芯、爱芯元智等 [153] - **传感器芯片**:CIS芯片供应商包括安森美、三星、索尼、瑞萨、Mobileye、东芝、豪威科技、思特威、格科微、富瀚微等,毫米波雷达芯片供应商包括英飞凌、恩智浦、意法半导体、德州仪器、ADI、加特兰、岸达科技、瓴钛科技等,激光雷达芯片供应商包括LeddarTech、Ouster、Lumentum、纵慧芯光、禾赛科技等 [153][154][155] - **存储芯片**:供应商包括三星、海力士、美光、铠侠、西部数据、长江存储、长鑫存储、兆易创新、北京君正、澜起科技等 [157] - **电源管理芯片**:供应商包括德州仪器、英飞凌、ADI、安森美、恩智浦、瑞萨、MPS、矽力杰、思瑞浦、杰华特、南芯科技、比亚迪半导体、艾为电子等 [159][160] - **RISC-V芯片**:涉及公司包括芯来科技、奕斯伟、Codasip、SiFive、瑞萨电子、隼瞻科技、方寸微电子、泰凌微电子、先楫半导体等 [161][162] - **车载通信芯片**:供应商包括德州仪器、英飞凌、ADI、联发科、北京君正、豪威集团、翱捷科技、瑞昱、裕太微、龙迅半导体、纳芯微、Microchip、紫光展锐、移远通信、中兴通讯、有方科技等 [162][163][164][165][167][170][171][173][174][175][176][177] AI大模型、应用与机器人 - **AI大模型**:涉及公司包括OpenAI、Meta、Anthropic、亚马逊、字节跳动、科大讯飞、DeepSeek、中科创达、梧桐车联、光庭科技、联想等 [178] - **AI应用**:汽车领域AI应用涉及腾讯、百度、阿里、字节跳动、科大讯飞、思必驰、中科创达、普强信息、博泰车联、德赛西威、梧桐车联、佑驾创新、联发科、东软集团等 [179][180] - **机器人**:机器人公司包括宇树科技、优必选、智元机器人、Figure、特斯拉、小米、波士顿动力、现代集团、华为等,机器人控制器供应商包括知行科技、立讯精密、华勤技术、汇川技术等,群体智能与移动机器人供应商包括极智嘉、
为什么蔚来会押注世界模型?
自动驾驶之心· 2025-12-31 14:27
文章核心观点 - 文章核心是推广一门关于自动驾驶世界模型的进阶实战课程 课程旨在帮助学习者理解并掌握这一前沿技术 推动端到端自动驾驶在工业界的落地[1][11] - 世界模型被视为智能驾驶能力上限的关键 其核心是建立高带宽的时空认知系统 以视频为核心学习物理规律 不同于解决概念认知的语言模型[1] - 行业对世界模型的定义尚不统一 初学者入门困难 该课程由业界专家设计 从原理到实战系统讲解 目标是使学员达到具备一年经验的算法工程师水平[1][14] 课程内容与结构 - 课程共六章 从概述、背景知识到具体模型流派及工业应用 循序渐进[4][6][7][8][9][10] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同流派(如纯仿真、仿真+规划、生成传感器输入等)[6] - 第二章讲解世界模型所需的基础技术栈 包括场景表征、Transformer、BEV感知、占用网络、扩散模型、闭环仿真(NeRF/3DGS)及其他生成式模型(VAE、GAN等)[6][12] - 第三章探讨通用世界模型 解析Marble、Genie 3、V-JEPA、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[7] - 第四章聚焦视频生成类世界模型 涵盖GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等 并以商汤OpenDWM进行实战[8] - 第五章聚焦OCC生成类世界模型 讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战 此类方法可扩展至轨迹规划[9][13] - 第六章分享工业界应用经验、行业痛点、问题解决思路及世界模型相关岗位的面试准备[10] 讲师与课程安排 - 讲师Jason拥有C9本科和QS50博士学历 发表多篇CCF-A/B论文 现任国内顶级主机厂算法专家 主持并完成多项自动驾驶感知与端到端算法的量产交付 拥有丰富的前沿算法预研和实战经验[3] - 课程为离线视频教学 于1月1日开课 预计两个半月结课 提供VIP群答疑及三次线上答疑 答疑服务截止2026年12月31日[15] - 章节内容按计划逐步解锁 例如第一章于12月10日解锁 第六章于3月1日解锁[16] 目标受众与学习收获 - 课程面向具备一定基础的学习者 要求自备GPU(推荐算力在4090及以上) 熟悉自动驾驶基本模块 了解Transformer、扩散模型、BEV感知等基本概念 并具备概率论、线性代数及Python/PyTorch编程基础[14] - 学员学完后将掌握世界模型技术进展(视频生成、OCC生成等) 对BEV感知、多模态大模型等关键技术有更深刻理解 能够复现II-World、OpenDWM等主流算法框架 并能将所学应用于实际项目设计[14] - 该课程有助于学员在实习、校招和社招中受益[14]
某头部具身公司创始团队的“裂痕”
自动驾驶之心· 2025-12-31 14:27
公司核心动态与内部战略分歧 - 某头部具身智能公司在2025年喜忧参半,估值不断飙升破百亿,订单不断增长,但创始人团队围绕发展路径出现分歧[3] - 公司内部形成“量产派”与“学术派”两派,量产派主要来自智驾行业背景,主张“沿途下蛋”的发展路径,专注于商业化、出货和量产交付[3] - 学术派主要来自高校教师背景,主张“直奔珠峰”,喜欢探索技术上限,认为打造高泛化模型最重要[3] 战略分歧的具体表现与背景 - 两派争论焦点在于该做简单场景还是高难度场景,以及资源投向何方,这与前几年自动驾驶行业关于做L4还是先做乘用车量产的争论相似[4] - 量产派因经历过智驾行业锤炼,更相信“沿途下蛋”的逻辑,且公司今年打通市场销路订单暴涨,因此认为做好商业化量产交付最重要[4] - 由于创始团队缺乏具身本体制造能力,月产量仅能满足一半订单需求,量产派创始人亲自带队“头拱地”地卷制造[4] 商业化与资本市场的现实压力 - 公司估值超过百亿后,资本评估重点从技术演示转向商业化能力,若无商业化收入规模,后续融资将非常艰难[4] - 公司筹备明后年IPO,需要一定的商业化收入作为支撑[4] 公司治理与融资影响 - 目前对公司具有主导权的是股份较多的量产派,但学术派在融资过程中的履历光环作用非常大,投资人非常看重,其去留会影响后续融资[5] - 行业中许多具身公司的CTO、首席科学家由学术大牛担任,他们多因资本疯狂追逐而从去年开始加入,但大多以兼职形式,并未All in[5] - 投资机构以往忌惮这种兼职行为,但因哄抢投资机会而暂时不计较,但这可能引发一系列问题[5]
L4数据闭环最重要的第一步:选对整个组织的LossFunction
自动驾驶之心· 2025-12-31 08:31
文章核心观点 - 在构建自动驾驶数据闭环系统时,将整个组织视为一个强化学习模型,其一级指标(如MPI、MPS、MPD)相当于模型的损失函数,直接决定了组织优化和收敛的方向 [5][6][9] - 行业常用的MPI指标不适合作为驱动问题解决的核心损失函数,因为它优化的是“人类接管频率”,而非车辆自身的“不智能”或“危险”行为表现 [7][11][22] - 提出并实践使用MPS和MPD作为核心一级指标,它们直接衡量车辆“干蠢事”和“干危险事”的频率,能更有效地驱动系统自我迭代和问题解决 [10][12][47] 根据相关目录分别进行总结 一、先把组织当成一个大模型:一级指标 = 损失函数 - 将自动驾驶数据闭环系统类比为强化学习系统,整个组织(包括算法、策略、运营、运维)的更新过程类似于模型的训练迭代 [14] - 在这个框架下,一级指标就是整个组织共同优化的“损失函数”,选择正确的指标是数据闭环驱动问题解决的第一步,其重要性超过技术堆栈(如GPU、大模型)[15][16] 二、为什么 MPI 做不好这个「损失函数」的角色 - **定义与直觉**:MPI定义为总行驶里程除以接管次数,直觉上衡量自动驾驶的成熟度,鼓励减少人工干预 [18][20] - **三个天然缺陷**:在L4无人驾驶场景下,MPI作为损失函数存在严重问题 [22] - **时序错位**:接管时刻是系统“忍无可忍”的结果,真正的问题行为发生在接管前几十秒甚至几分钟,惩罚信号存在严重延迟 [23][25][26] - **原因难以结构化**:“接管原因”极难被准确、结构化地采集,无法转化为稳定的训练信号 [27][30] - **优化目标偏差**:MPI优化的是“人多久救一次场”,而非“车干了多少蠢事或危险事”,导致许多未触发接管的问题行为在优化目标中不可见 [22][29] - **实践尝试的失败**:公司尝试了多种方法采集接管原因(如司机语音上报、工程师跟车、云端人工打标),但均因成本高、信号主观模糊、难以规模化或规则过拟合而失败,无法作为长期稳定的损失函数 [33][34][38][39][40][42][45] 三、换个角度:不问「人什么时候出手」,改看「车到底干了什么」 - 将评估视角从“人”转向“车的行为本身”,不再关注“人何时救场”,而是关注“车自己干了哪些蠢事或危险事” [43] - 提出两组新的核心指标: - **MPS**:Miles Per Stupid,衡量每发生一次“不智能表现”(Stupid行为)所行驶的平均里程,常用反写形式“每万公里急刹/画龙/停车不走事件次数”进行统计 [44][46] - **MPD**:Miles Per Dangerous,衡量每发生一次“危险行为/险情/事故”(Dangerous行为)所行驶的平均里程,常用反写形式“每万公里险情/事故次数”进行统计 [46][79] - **损失函数意义**:MPS是对“蠢行为”的惩罚项(体感差),MPD是对“危险行为”的重惩罚项(安全红线),组织围绕这两个损失项进行“梯度下降” [47][81] 四、MPS 具体长什么样:急刹、画龙、停车不走 - **急刹车**:统计“每万公里急刹次数”,并按多维度拆分。急刹被视为“体温计”而非清零KPI,关键是通过曲线异常(变坏或好得离谱)发现问题 [49][50] - **案例A(天气降温致急刹暴涨)**:某城市线路急刹曲线突然抬头,最终溯源发现是低温导致电池与制动系统能量回收逻辑触发,制动力“超调” [51][55] - **案例B(雨天急刹减少实为风险上升)**:某几台车雨天急刹次数反常下降,分析发现是激光雷达外壳积灰遇水形成膜,导致雷达“部分致盲”、障碍物漏检 [58][60][61] - **案例C(被追尾风险分析)**:通过分析“每万公里急刹次数”中“前方无真障碍+被后车追尾”的子集,可以针对性优化感知或规控策略,降低风险 [64] - **画龙(大转向)**:统计“每万公里大转向/画龙事件次数”。轨迹异常抖动常由标定、胎压、控制参数或感知问题导致 [65][67][68] - **案例**:少数车辆画龙指标长期偏高,检查发现是因长期碾坑导致转向机构轻微变形,从而建立了通过指标异常自动触发重点车辆运维检查的流程 [69][70][71] - **停车不走**:统计“每万公里停车不走事件数”,并按时长分桶(如0-1分钟、1-3分钟、3-10分钟、10-30分钟以上),以避免被正常拥堵噪声淹没 [73][76] - **案例**:某路口因红绿灯故障与策略冲突,导致车辆停车长达半小时。通过“每万公里3分钟以上停车不走事件数(按路口拆分)”指标,才能精准定位此类复杂问题,而非模糊归因为“路口老堵” [77][78] 五、MPD:Miles Per Dangerous —— 把安全红线也放进损失函数 - MPD事件包括真事故/剐蹭、高速高风险急刹、失控倾向等,数量少但惩罚权重极高 [80][83] - 处理流程严格:一旦触发MPD事件,会单独拉取样本,进行多模态回放和跨维度(感知、预测、规控、硬件、地图、环境、运营)复盘,最终落实到明确的策略或结构改动 [83] - 系统目标:在追求MPD趋近于0的同时,用MPS约束系统不能通过极端保守(如“啥都不动”或“看不见就当没事”)的方式来压低事故率 [84] 六、回到强化学习的比喻:好的指标 = 好的损失函数 - **信号更贴行为**:MPS/MPD及其背后的Trigger体系能统一定义具体行为,并关联完整上下文数据,便于自动归因和问题分发,工程可用性更强 [85] - **指标少而有力**:真正能作为“损失函数”驱动组织的一级指标通常不超过三五个,需要团队每日紧盯,而非罗列数十个无效指标 [86] - **自带梯度方向**:好的指标(如MPS/MPD)能清晰指示“指标何时变坏或好得离谱”,从而自然引导资源投向最有价值的问题进行优化 [87][89] 七、小结:先把「损失函数」选对,数据闭环才有意义 - 重申核心:在数据闭环中,一级指标就是组织的损失函数,其选择决定了整个团队的优化方向 [87] - 对比影响:以MPI为核心,组织会优化“人多久救场”;以MPS/MPD为核心,组织则优化“车在真实世界干蠢事/危险事的频率” [90] - 最终检验:评估现有的一级指标是在鼓励“少报问题”还是“多发现问题、多解决问题”,是否给组织提供了正确的梯度方向 [91]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-31 08:31
行业整体动态 - 自动驾驶行业在整体下沉的关键节点竞争激烈 卷技术 卷成本 卷效率 [1] - 行业人才流动显著 上半年及当前有大量自动驾驶领域人才转行至具身智能 无人机等行业 L4/具身/无人机行业正在大批量招人 [1] - 自动驾驶作为相对成熟的AI领域 其算法人才非常受欢迎 头部企业如大疆 宇树 智元 哈啰等提供的薪资很到位 [1] - 自动驾驶从业者因具备使用大集群 解决各种复杂场景问题以及上下游协同能力强等经验 在其他相关行业备受青睐 [2] 公司业务发展 - 公司业务在年内进行了拓展 扩充了许多B端客户 并开始尝试从线上走向线下 [1] - 公司在C端的内容策略正从普适性内容逐渐转向专业化和精细化 [1] 技术发展趋势 - 自动驾驶头部技术收敛到几个大方向 包括一段式端到端 VLA 世界模型 强化学习 [3] - 行业中游厂商仍在攻坚OCC 无图技术 多传感器融合感知等领域 [3] - 相关技术公司计划在明年开放大量职位 [3] 行业社区与信息 - 自动驾驶之心付费社区的成员在年内正式突破4000人 [3] - 该社区提供技术路线发展 各类圆桌讨论 研报 职位信息等内容 [3]
滴滴最近在加速了!ColaVLA:潜在认知推理的分层并行VLA框架(清华&港中文&滴滴)
自动驾驶之心· 2025-12-30 17:20
自动驾驶技术范式演进 - 自动驾驶系统正从传统的模块化流水线(感知、预测、规划分离)向端到端(E2E)联合学习范式演进 [3][6] - 视觉-语言模型(VLMs)被引入以注入跨模态先验知识和常识推理,进一步丰富了端到端范式 [4][6] - 当前基于VLM的规划器面临三大核心挑战:离散文本推理与连续控制之间的模态不匹配、自回归思维链解码带来的高延迟、以及效率低下或非因果的规划器设计限制了实时部署能力 [7][9] ColaVLA框架核心创新 - 提出ColaVLA,一种统一的视觉-语言-动作框架,将推理过程从文本域迁移至统一的潜变量空间,并与分层并行轨迹解码器相结合 [4][10] - 设计认知潜变量推理器,通过自车自适应选择机制和仅两次VLM前向传播,将场景理解压缩为紧凑的、面向决策的元动作嵌入 [4][10][11] - 提出分层并行规划器,在单次前向传播中生成多尺度、因果一致的轨迹,实现了高效、准确且安全的轨迹生成 [4][12][20] 认知潜变量推理器技术细节 - 推理过程分为四步:驾驶场景理解、关键目标识别、潜变量重思考和策略决策合成 [21][23][26][27] - 引入自车自适应路由器,通过FiLM调制使视觉token与车辆瞬时状态对齐,并筛选出Top-K个安全关键视觉token,形成高效的信息瓶颈 [11][23][25] - 通过将推理空间限制在C个元动作token内,实现了熵减,并生成多个可能的驾驶策略,为后续预测提供结构化先验 [27] 分层并行规划器技术细节 - 规划器采用“意图-运动”多阶段解码,将预测时域划分为S个嵌套阶段,从粗到细地生成轨迹 [28] - 设计因果保持混合注意力掩码,允许每个尺度的token同时关注筛选后上下文和紧邻的前一尺度,但禁止访问未来尺度,确保物理一致的“从粗到细”解码 [30][33][35] - 采用置信度引导并行解码机制,同时处理多个候选驾驶策略,在单次前向传播中完成,确保高效率并防止模态崩溃 [33] 实验设置与训练策略 - 实现基于LLaVA v1.5框架,采用LLaMA-7B作为语言模型,图像编码器初始化采用EVA-02-L [34] - 训练采用两阶段策略:先在问答对上预训练VLM实现感知-规划对齐,再集成规划器进行联合微调,VLM内部仅更新LoRA参数以保留预训练知识 [36] 开环性能评估结果 - 在nuScenes开环基准测试中,ColaVLA取得了最佳的整体准确性和安全性,平均L2误差为0.30米,平均碰撞率为0.23% [37] - 与最强的基于动作基线SOLVE-E2E(平均L2误差0.31米;平均碰撞率0.30%)相比,L2误差降低3%,碰撞率降低23% [37] - 与基于文本的VLM规划器相比,该框架的VLM前向传播次数减少超过5倍,彰显了卓越效率 [37] 闭环性能评估结果 - 在NeuroNCAP闭环基准测试中,ColaVLA达到新的当前最优性能,NeuroNCAP评分为3.48,较最强现有方法ImpromptuVLA(2.06)绝对提升1.10(相对提升53%) [38] - 安全性方面,模型将平均碰撞率从65.1%降至36.8%,其中静态碰撞率从54.8%改善至32.3%(降低约41%) [38] 推理效率评估结果 - ColaVLA实现了最低延迟,推理耗时为727毫秒 [39][40] - 与依赖文本自回归推理的SOLVE-VLM(3719毫秒)和OmniDrive(3727毫秒)相比,实现了超过5倍的推理加速 [39][40] 消融实验分析 - 潜变量推理及其重思考阶段对提升模型推理能力、降低预测误差至关重要,引入后平均L2误差从32.2厘米降至30.4厘米 [43][44] - 在闭环评估中,分层并行规划器显著优于基于MLP和扩散模型的规划器,NeuroNCAP平均评分从约1.0提升至1.50 [45] - 自车自适应路由器中保留视觉token数量K的选择至关重要,K=256在语义覆盖和计算效率之间实现了最佳平衡 [46][47] - 在分层回归策略中,本文提出的插值策略取得了最佳性能,验证了其在结构化、因果一致轨迹推理中的有效性 [47][49][51]
正式开课!三个月搞懂自动驾驶世界模型技术栈
自动驾驶之心· 2025-12-30 17:20
文章核心观点 - 世界模型是理解并改变物理世界的核心技术,正引领生成式AI自动驾驶范式,重塑自动驾驶底层能力[2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成和OCC生成[2] - 行业基于开源算法搭建云端/车端世界模型,用于长尾数据生成、闭环仿真评测,并尝试直接赋能车端驾驶能力[3] - 世界模型定义尚不清晰,初学者入门困难,存在大量“踩坑”现象[4][5] - 为解决学习难题,推出了国内首个《世界模型与自动驾驶小班课》,旨在系统化教学,帮助学员达到约1年经验的算法工程师水平[7][20] 行业技术动态与探索方向 - **视频生成方向**:是学术界和工业界探索最多的领域,代表工作包括Wayve的GAIA-1/2/3、上海交通大学CVPR'25的UniScene等[2] - **OCC生成方向**:经典工作包括OccWorld、OccLLaMA,以及西安交通大学最新的SOTA工作II-World[2] - **通用世界模型进展**:近期重要发布包括2025年6月Yann LeCun的V-JEPA 2、2025年8月DeepMind的Genie 3、2025年11月李飞飞团队的Marble[2] - **业界热门工作**:包括导航世界模型、VLA+世界模型算法DriveVLA-W0以及特斯拉在ICCV上分享的世界模型模拟器[13] 课程内容与结构 - **第一章:世界模型介绍**:复盘世界模型与端到端自动驾驶的联系,讲解发展历史、应用案例、不同流派(纯仿真、仿真+Planning、生成传感器输入、生成感知结果等)及其在业界的应用与解决的问题[12] - **第二章:世界模型背景知识**:讲解场景表征、Transformer、BEV感知等基础知识,为后续学习奠定基础,内容被认为是求职面试频率最高的技术关键词[12][13] - **第三章:通用世界模型探讨**:深入讲解Marble、Genie 3、JEPA、DriveVLA-W0、特斯拉模拟器等热门模型的来龙去脉、核心技术与设计理念[13] - **第四章:基于视频生成的世界模型**:从Wayve的GAIA-1 & GAIA-2讲起,涵盖CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战[14] - **第五章:基于OCC的世界模型**:聚焦OCC生成类算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端[15] - **第六章:世界模型岗位专题**:分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备要点[16] 课程涉及的关键技术栈 - **基础模型与架构**:Transformer、视觉Transformer、为多模态大模型奠定基础的CLIP和LLaVA[18] - **感知与表征**:BEV感知、占用网络[18] - **生成式模型**:扩散模型(用于输出多模轨迹)、VAE、GAN以及Next Token Prediction[18] - **仿真技术**:闭环仿真、NeRF和3DGS[18] 课程面向人群与学后收获 - **面向人群**:课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力从业者真正理解端到端技术[17] - **学员基础要求**:需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,了解transformer大模型、扩散模型、BEV感知等基本概念,以及概率论、线性代数、Python和PyTorch基础[20] - **学后收获目标**:掌握世界模型技术进展(视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中[20] - **职业发展**:学完预计能达到1年左右世界模型自动驾驶算法工程师水平,对实习、校招、社招均有助益[20] 课程安排与信息 - **课程进度**:开课时间为1月1日,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止2026年12月31日[21] - **章节解锁时间表**: - 12月10日:第一章[22] - 1月1日:第二章[22] - 1月20日:第三章[22] - 2月4日:第四章[22] - 2月24日:第五章[22] - 3月1日:第六章[22] - **讲师背景**:Jason老师拥有C9本科和QS50高校博士学位,已发表CCF-A论文2篇及CCF-B论文若干,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,并主持完成多项自动驾驶感知和端到端算法的产品量产交付[9]
死磕技术的自动驾驶黄埔军校,元旦大额优惠......
自动驾驶之心· 2025-12-30 17:20
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,将其定位为国内首个自动驾驶全栈技术交流与学习平台 [22] - 社区致力于通过整合行业动态、技术资料、学习路线、专家资源和求职服务,降低学习与从业门槛,帮助成员应对行业高壁垒和内卷挑战 [6][8] - 社区已形成规模化运营,拥有超过4000名成员,并计划在未来2年内扩张至近万人规模 [8] 社区定位与规模 - 社区是集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 社区成员已超过4000人,目标在未来2年内达到近万人规模 [8] - 社区成员背景多元,来自国内外知名高校(如上海交大、清华大学、CMU等)和头部公司(如蔚小理、地平线、华为、英伟达等) [22][23] 内容与资源体系 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线 [10][13] - 汇总了近百个自动驾驶数据集、行业主流仿真平台及各类开源项目 [15][23] - 提供了从数学基础、编程、深度学习到具体技术领域(如感知、规划、VLA、世界模型)的完整学习资料与课程 [15][16] - 设有“自动驾驶100问”系列,涵盖TensorRT部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定、4D毫米波雷达等专题 [15] 专家互动与活动 - 社区邀请了数十位活跃在产业界和学术界的嘉宾进行分享与答疑 [10] - 已举办超过一百场专业技术直播,内容涵盖VLA、世界模型、3D检测、规划算法、V2X等前沿话题 [94] - 定期与一线学术界和工业界大佬探讨自动驾驶发展趋势、技术走向与量产痛点 [11][100] 学习与课程服务 - 提供原创直播课程,涵盖感知融合、多传感器标定、SLAM、规划预测、数据工程、端到端自动驾驶及大模型等主题 [16] - 为入门者准备了全栈方向的学习课程,适合0基础小白 [15][16] - 为进阶者提供产业体系、项目方案和实战落地的内容 [18] 就业与行业服务 - 与多家自动驾驶公司建立岗位内推机制,可协助成员将简历直接投递至心仪公司 [16] - 社区内提供求职交流、offer建议、行业前景分析、公司选择及内推机会 [7][10][25] - 汇总了国内外自动驾驶公司及高校实验室信息,供成员求学、求职参考 [33][35]
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2025-12-30 08:28
文章核心观点 - 文章对地平线公司提出的两篇关于一段式端到端自动驾驶方案的核心论文进行了技术解读,重点分析了DiffusionDrive和ResAD两篇工作的核心思想、架构设计及技术亮点,认为这些工作为行业从业者提供了重要启发 [2][3][18] DiffusionDrive方案总结 - 整体架构可分为感知信息、导航信息和轨迹生成三部分 [6] - 感知信息部分的核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密BEV特征图或稀疏实例特征等不同玩法 [6] - 导航信息的融合在实践中挑战巨大,特别是在复杂路况下,算法设计需结合具体导航平台、信息丰富度和定位能力 [7] - 轨迹生成部分的核心创新是“Truncated Diffusion”方法,其灵感源于人类驾驶行为具有固定模式这一观察 [8] - 该方法首先从训练集中通过K-Means聚类出N个描述常见驾驶行为的轨迹序列作为锚点 [9] - 在训练中对这些锚点轨迹进行弱加噪,从而降低去噪所需的步数,减少了训练收敛难度和推理时的去噪次数需求 [8][9] - 训练时计算与真值轨迹最接近的锚点对应的去噪轨迹损失,并预测每个锚点的存在性 [9] - 该锚点式轨迹生成方法降低了训练难度并提高了推理实时性,但文章未涉及系统时序模块以保障轨迹稳定性 [10] ResAD方案总结 - 整体架构的核心创新在于残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与惯性外推轨迹之间的残差 [12] - 由于距离当前时刻越远残差越大,需要对时序上的残差进行正则化处理,以压缩其区间 [13] - 正则化后的残差分布在不同未来时刻表现得更一致,这有助于模型学习,避免了预测误差被远距离点过度影响,也缓解了数据分布不平衡下的模型“偷懒”问题 [14] - 在生成过程中,噪声被直接施加在初始速度上,通过控制横向和纵向噪声的不同大小,可以调整模型对不同方向的学习难度和关注程度 [15] - 方案设置了K种噪声,推理时可根据算力需求和对多模态的依赖程度选择不同的K值 [15] - 方案包含一个轨迹选择器,将top-k的轨迹预测编码作为查询,环境信息作为键和值,结合自车状态嵌入,通过Transformer预测多个自定义的度量分数,以选择最佳轨迹 [16] - 残差监督设计将惯性部分从预测中剥离,使模型能更专注于学习驾驶行为的真正多样性部分,有效对抗了数据采集过程中匀速数据过多导致的不平衡分布问题 [17] - 轨迹选择器部分回答了关于轨迹稳定性的部分疑问,但仍有改进空间,例如可进一步设计为时序结构以提升选择的稳定性 [17]