端到端
搜索文档
元戎启行跻身高阶段智驾第一梯队,复星锐正长期资本与产业赋能见成效
21世纪经济报道· 2026-02-11 17:02
行业与公司核心观点 - 头部企业元戎启行凭借技术落地与量产效率优势,已跻身国内第三方城区NOA第一梯队[1] - 智能驾驶行业正从“规则驱动”转向“数据驱动”,技术型创业公司迎来突围窗口[3] - 投资机构复星锐正通过长期资本加持与产业资源赋能,成为推动企业成长的重要力量[1] 市场地位与业绩表现 - 2025年10月单月,元戎启行以近40%市场份额位居第三方城区NOA市场首位,增长倍数达2.7倍[2] - 截至2025年底,搭载元戎启行方案的量产车型交付量已突破20万台,覆盖车型超过15款[2] - 公司计划在2026年实现搭载其智驾方案的车辆累计交付突破100万辆[4] 技术发展与行业趋势 - 随着端到端、VLA模型技术成熟,辅助驾驶行业正经历技术范式变革[3] - 元戎启行依托算法研发、产品体验与量产交付的体系化能力,与长城、吉利、smart等主流车企建立深度合作[3] - 公司通过规模化量产积累真实场景数据,以构筑长期技术壁垒[4] 公司战略与未来规划 - 元戎启行选择与核心车企深度绑定、聚焦爆款车型的差异化战略[4] - 公司计划在2026年跨越百万辆级交付的安全门槛[3] - 未来将稳步拓展更多海内外车企客户,为Robotaxi与全无人自动驾驶业务奠定基础[4] 投资方背景与支持 - 复星锐正自2019年起投资元戎启行,并在随后六年内连续参与4轮融资,目前为元戎启行第二大股东[5] - 复星锐正自2015—2016年便开始布局智能出行产业链,覆盖激光雷达等核心硬件及算法、系统方案等关键环节[5] - 复星锐正通过长期资本投入与产业资源积累,为元戎启行在技术研发、量产落地及市场拓展等方面提供支撑[5]
世界模型,是自动驾驶的终极答案吗?
36氪· 2026-02-05 12:30
行业核心趋势:世界模型成为智能驾驶新焦点 - 世界模型是继端到端、VLA后,智驾领域最时髦的技术名词,多家公司推出相关概念,如小鹏的“世界基座模型”、蔚来的“端到端世界模型”、华为的“世界行为模型”,地平线、理想、元戎启行、Momenta也在进行相关研发 [2] - 在广义语境中,世界模型本质是在虚拟世界再造真实世界,使AI能理解现实世界的物理规律、因果关系和环境动态,被科学家和科技公司视为实现“物理世界AI”的关键拼图 [3] - 当前智驾行业谈论的“世界模型”在技术路径上差异不大,主要是对传统仿真工具进行范式升级,旨在还原度、颗粒度、场景丰富度和自由度更高的虚拟世界中,解决端到端模型的测试与验证问题,以训练出更拟人化的智驾模型 [4] 技术驱动因素:端到端普及暴露传统仿真短板 - 过去两三年,头部智驾方案从规则栈转向AI驱动的端到端模型,感知、预测、规划被整合进一张网络,配合更大模型和更高算力,旨在使驾驶行为更拟人 [7] - 端到端模型的“黑盒”特性导致新版本OTA可能表现不稳定甚至“退步”,核心问题在于AI驱动使得模型评估和回归验证变得困难,研发人员难以定位错误原因 [8][9] - 端到端的普及凸显了传统仿真器的短板,传统仿真器在规则时代主要用于问题重现和增加特定场景数据,但无法支撑端到端模型所需的大规模、系统性闭环验证 [10] 核心应用定位:世界模型作为云端仿真与验证系统 - 截至目前,智驾行业的世界模型仅应用于云端,尚未部署到车端,其主要作用是充当仿真器,用于测试和验证端到端模型 [6] - 头部玩家如理想和小鹏均将世界模型作为仿真器应用,理想为使其VLA在仿真环境中进行强化学习,提出了包含自车和他车轨迹的驾驶世界模型;小鹏也在采用世界模型进行仿真测试以评测新算法 [10] - 世界模型在工程上被定位为端到端时代的“验证与反证系统”,用于在云端重放、改写、扩增现实驾驶场景,检验车端大模型输出的稳定性和可复现性,并形成可追踪的错误证据链 [14] - 世界模型的核心能力包括对物理世界的数字化建模与抽象,以及基于此对物理世界进行合理的想象和预测,例如通过给定图片预测未来变化 [14] 技术路径与挑战:生成质量、幻觉与算法瓶颈 - 世界模型的好坏取决于其能否在云端生成足够真实和多样性的数据,仅回放真实数据并非真正的世界模型,训练数据的质量会显著影响生成结果的质量 [15] - 世界模型底层是生成式模型,天生存在“幻觉”风险,目前最难的是保证生成内容符合真实世界的物理规律和行为逻辑,否则将导致车端模型学到错误知识,性能变差 [16] - 行业普遍处于早期阶段,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体在时空一致性和多视角一致性上存在较大问题 [16] - 前理想汽车辅助驾驶负责人指出,世界模型的瓶颈首先在于算法层面未有突破,图像模型的自监督训练尚未找到像语言模型那样顺畅的范式,图像信息密度低,对驾驶决策有用的信息占比极低,模型需从海量噪声中提取极少有效信号 [17][18] - 由于基础技术尚未明确突破,车企对世界模型的投入更多是研究性质,目前世界模型主要停留在用于训练与验证的第一阶段,而非能支撑决策规划的第二阶段 [18] 效率价值与未来展望 - 基于世界模型,车企在云端仿真时可以无限制地生成所需场景,根据指令生成视频作为训练数据,效率远高于真实数据采集与训练,能带来模型迭代速度的断代式领先 [16] - 特斯拉采用了“世界模拟器”的概念,其基于海量数据集训练,根据当前状态与动作生成未来状态,并与车端端到端模型形成闭环评估,其方法更倾向于用神经网络“拟合”世界,渲染通过计算生成,以增强模型泛化能力 [11][14] - 业内观点认为,如果世界模型足够成熟且算力可支撑,未来有望部署到车端,实现通过预测世界变化并进行有利决策,从而解决自动驾驶和机器人相关问题,但目前尚无公司在车端应用世界模型 [18][19]
见谈|地平线吕鹏:端到端是基石,做不好端到端就做不好VLA
21世纪经济报道· 2026-02-03 16:04
智能驾驶技术路线 - 行业专家认为市场无需对技术路线的不同名词感到焦虑 无论是端到端 VLA WA还是VA 本质上没有冲突 其技术架构均基于端到端构建 [1] - 端到端技术是基石 没有端到端的基座 很难引入新的模态 也无法更好地提升产品性能 做不好端到端就做不好VLA [1]
陈亦伦和李震宇创立的具身公司它石智航,不做 VLA、不仿真,不走主流路线
晚点LatePost· 2026-02-02 10:06
公司核心观点与战略 - 公司(它石智航)由华为车BU前首席科学家陈亦伦与百度前自动驾驶事业群负责人李震宇等联合创立,成立不足半年即完成1.2亿美元和1.22亿美元的天使轮与天使+轮融资,创下中国具身智能领域天使轮融资纪录[4] - 公司的核心战略是摒弃行业主流的VLA(视觉-语言-动作)模型和遥操作数据采集路径,转而开发名为AWE(AI World Engine)的模型,并自研可穿戴设备来低成本、大规模采集真实世界的人类行为数据[4][5] - 公司认为具身智能是一个独立的行业,其基础模型不应是LLM或VLM的下游分支,而应有自己独立的模型体系[4][39] - 公司已通过自研的可穿戴设备采集了约10万小时数据,并预计明年数据量将“再翻数倍”,其数据采集成本相比遥操作方法“至少低两个数量级(即1/100)”[31][32] 创始人背景与技术理念 - 创始人陈亦伦拥有物理竞赛保送清华、美国机器学习博士的背景,职业生涯早期在机电系统公司学习电机、伺服控制和液压系统,其职业信念是“做出理想中的机器人”[7][8] - 在华为领导自动驾驶研发期间,陈亦伦团队在2020-2021年成功尝试了端到端系统,用3万行代码训练的神经网络替代了原有200万行规则的规控代码,并在极端场景测试成功,这被他称为“GPT时刻”,使其看到了AI做规划(Planning)的潜力[9][10][11] - 陈亦伦认为,AI解决大型复杂问题需跨越三道墙:数据墙、算力墙和后训练墙。当前具身智能的核心卡点(瓶颈)在第一道“数据墙”,即如何低成本、大规模获取高质量数据[14][15] - 其技术理念强调“重剑无锋、大巧不工”,认为面对越复杂的任务和海量的数据,神经网络结构应越简单,模型成功的关键在于定义正确的训练目标(如大语言模型的“预测下一个词”),而非复杂的架构本身[16][17][18] 行业机遇与挑战 - 通用机器人发展迎来“三道曙光”:1)运动控制(Locomotion)因强化学习和高并发仿真器的应用而解锁;2)大语言模型(如GPT)提供了强大的任务规划能力;3)端到端方法被验证有效[12][13] - 具身智能行业目前的核心痛点是数据获取,其所需的数据基础规模约为“1000万小时或更多”,比自动驾驶(约100万小时)高一个数量级[27] - 行业主流的数据采集方法(如遥操作)存在成本高、速度慢、难以进入真实场景、动作不够真实等缺陷,限制了数据规模[5][28][29] - 行业尚未在模型性能上明显展现出“Scaling Law”,但已处于数据规模快速增长的scaling状态,预计到2026或2027年会在解决垂直领域具体问题上显现效果[40] 技术路径与模型创新 - 公司反对当前主流的VLA技术路线(即在VLM上增加动作输出头),认为这会使机器人行业沦为LLM的下游分支[4][39] - 公司开发的AWE(AI世界引擎)模型追求对物理世界的“深度表达”,核心是记录时间、空间、力等“世界信息”以及机器人如何与物体交互,并能根据机器人的动作预测世界状态、推荐下一步操作[38] - 对于具身智能,两个重要的训练目标是:1)空间重建(如自动驾驶中的BEV鸟瞰视角),这是物理AI独有的需求;2)与世界的交互,特别是对柔性物体施加力的操作[18][19] - 当前AI的“智能涌现”本质是“内插”和数据的拟合,并非真正的理解。要实现像人一样快速学习新任务,需要解决“先验判断”和“想象反馈”的机制,这是未来的重大挑战[21][22][23] 数据采集方案与优势 - 公司自研了名为“SenseHub”的数据采集套件,核心是一对轻量化、无线的手套(有五指和两指版本)和第一视角摄像机,让劳动者在真实场景中佩戴工作以采集数据[24][26] - 该方案旨在采集“全信息地刻画手的动作”的数据,包括手在空间中的位姿(位置和姿态)、每个手指的位姿以及施加给对象的力[34] - 相比从互联网视频或仿真获取数据,该方案能建立“指令-动作”的准确映射,且数据更真实。仿真数据对精细操作用处不大,仅对运动控制(Locomotion)有效[27] - 该方案效率高、易于规模化、不干扰生产,但对AI能力要求更高。公司为此自研硬件,因为现有VR手柄或动捕手套等设备在精度、深度信息或昏暗环境工作能力上无法满足要求[30][35][36] 市场竞争与落地场景 - 创始人认为,在具身智能时代,中国创业者凭借强大的工业制造能力、AI人才和工程师资源,能够更好地整合硬件、数据和算法,实现协同优化,美国创业者将不是对手[37] - 公司首波重点落地场景是工业制造领域,例如汽车、家电、服务器中的线束(Wire Harness)装配。这类任务因线束具有立体、柔性特点,对传统机器人极难,高技术门槛正是公司的机会[41] - 判断具身智能公司是否靠谱的关键在于其是否“想清楚自己要成为谁”,有明确的目标和坚持正确路径的执行力[43]
对话它石智航陈亦伦:不做 VLA,不仿真,一家具身智能公司的非主流判断
晚点Auto· 2026-01-29 22:51
公司概况与融资 - 它石智航由华为车BU前首席科学家陈亦伦与百度前自动驾驶事业部负责人李震宇等联合创立,于2024年底开始筹备 [4] - 公司成立不足半年,先后完成1.2亿美元和1.22亿美元的天使轮与天使+轮融资,创下中国具身智能领域天使轮融资纪录 [4] - 投资方包括蓝驰、美团、启明、线性、高瓴、联想创投等 [4] 核心技术与路线 - 公司不采用当前主流的VLA模型路线,认为具身智能应有自己的独立模型,而非在VLM上长出一个动作“头” [4][39] - 开发了名为AWE的模型,全称为AI World Engine,其核心是追求对物理世界的深度表达,记录时间、空间、力等“世界信息”,而非“视网膜信息” [4][38] - AWE模型强调动态演化,能根据机器人的动作预测世界状态并推荐下一步操作 [38] - 公司认为具身智能的核心卡点是数据,因此自研了用于采集数据的可穿戴设备,而非采用当时Optimus、PI等美国公司选择的遥操作方式 [5][24] 数据采集策略与规模 - 公司通过自研的可穿戴设备采集数据,设备由轻量化手套和第一视角摄像机构成,让劳动者佩戴后在工作场景中自然采集真实任务数据 [24][26] - 该方法旨在低成本、大规模获得高质量数据,其成本比遥操作方式“至少低两个数量级” [32] - 公司从2025年8、9月开始大规模采集,目前已积累约10万小时数据,并预计明年数据量会“再翻数倍” [31] - 公司认为具身智能要达到持续可用,需要“1000万小时或更多”的数据基础规模 [27] 创始人背景与技术认知 - 创始人陈亦伦拥有物理竞赛保送清华、美国机器学习博士的背景,职业生涯早期在机电系统公司学习过电机、伺服控制和液压系统 [7][8] - 在华为期间,其团队最早尝试端到端自动驾驶,用3万行代码的神经网络替代了原有的200万行规控代码,并在极端测试场景中取得成功,这被其称为“GPT Moment” [9][11] - 基于在自动驾驶领域验证端到端方法的成功,创始人看到了机器人加速发展的时机,并因此离开华为投身具身智能创业 [11] 行业机遇与挑战 - 通用机器人发展迎来“三道曙光”:运动控制的解锁、大语言模型提供的任务规划能力、以及端到端方法的验证 [12][13] - AI解决大型复杂问题需跨越“三道墙”:数据墙、算力墙、后训练墙;目前具身智能尚处在第一道“数据墙”阶段 [14][15] - 行业普遍认为具身智能尚未找到自己的“Scaling Law”,但公司认为行业已在scaling状态,预计到2026或2027年会在模型性能上显现效果 [40] - 行业早期信号将从刷视频demo转向解决垂直领域的具体问题,并出现真实客户采购 [40] 产品落地与市场判断 - 公司第一波重点落地场景是工业制造,例如线束装配这类对传统机器人而言难度高、技术门槛高的领域 [41] - 创始人判断,在具身智能时代,凭借中国强大的工业制造能力、AI人才和工程师,中国创业者将更具优势 [37] - 公司明确自身发展路径,将按照既定方式持续推进 [43]
L4数据闭环 | 模型 × 数据:面向物理 AI 时代的数据基础设施
自动驾驶之心· 2026-01-19 17:04
文章核心观点 - 在通往通用物理智能(如自动驾驶)的道路上,模型算法是天花板,而数据基础设施是地板,真正的壁垒在于两者能否实现“双轮驱动” [1] - 模型算法本身正在变成“快消品”,但如何从物理世界挖掘数据、定义好坏、构建逼真虚拟考场的基础设施,一旦建成将成为真正的护城河 [5] - 对于物理AI(如机器人、自动驾驶)而言,越是走向端到端和世界模型,以大规模实车数据闭环为核心的“重”基础设施就越有价值 [27][33] 行业风向与共识转变 - 自动驾驶和AI圈子的关注点已从比拼单个模型的智力上限(如模型架构、SOTA论文),转向争夺“数据基础设施”人才 [2][8] - 头部公司如Tesla、Wayve、DeepMind的技术重点已变为数据引擎、自动评测体系、生成式仿真和闭环能力 [3][8] - Tesla在FSD V12中强调从大规模车队中挖掘“特征片段”并构建自动评分系统,而非依赖人工规则 [3] - Wayve等激进端到端玩家将生成式世界模型(如GAIA-1/GAIA-2)作为产品路线图主干,认为AI需先学会生成逼真、可交互的世界才能真正学会驾驶 [3] - DeepMind的Genie项目逻辑类似,旨在从海量互联网视频中学习可交互虚拟环境,供智能体进行加速训练 [4] 物理AI的进化形态(类比科幻作品) - **第一阶段:完全虚拟(SAO Aincrad篇)** - 对应早期仿真与远程示教,所有交互发生在代码构建的虚拟空间,效率极低(1x实时),且无法模拟物理世界的混沌噪声 [9][10][16] - **第二阶段:增强现实(SAO Ordinal Scale篇)** - 对应当下的大规模实车数据闭环,在真实世界(如数千辆L4/L2+车辆)上叠加数据采集,核心优势是数据天然包含物理世界的真实分布,但核心痛点仍是数据积累速度受物理时间限制 [11][16] - **第三阶段:世界模型与时间加速(SAO Underworld篇)** - 对应物理AI的终极方向,即构建一个时间流速可加速(如现实1天等于虚拟几百年)的逼真世界模型,让AI在其中进行指数级快速试错与进化 [12][13][17] - **终局展望:脑机接口与人机融合(加速世界篇)** - 对应Neuralink等公司的愿景,通过高带宽脑机接口实现人类意图的零损耗采集,直接将人类价值观注入AI [14] 自动驾驶数据闭环体系的核心作用 - 当前建设的L4自动驾驶数据闭环,并非仅仅为了“修Bug”,而是将物理世界的混沌翻译成世界模型能理解的“教科书” [15] - 该体系为未来世界模型提供关键的“生成指令集”和自动化评判标准,其价值在于对物理世界的理解、问题定义和数据掌控力这些“慢变量” [21][32] 第一层:感知物理世界的“体温计”(指标体系) - 定义了如MPS(每愚蠢里程)和MPD(每危险里程)等客观物理指标,这些指标未来将成为世界模型的奖励函数,用以评判AI在虚拟世界中驾驶的舒适性与安全性 [18][19] - 这些物理世界的客观标准(如急刹代表体验差,画龙代表控制不稳,贴得太近代表危险)是永恒不变的 [24] 第二层:把“瞬间”变成“病历”(数据分级与CaseID) - 通过Microlog/Minilog/CaseID体系,从现实世界每秒产生的PB级噪声数据中,提取高价值信息,将零散数据事件(如一次急刹)转化为结构化的“临床病例”,供世界模型学习 [20][25] 第三层:把车队变成“题库”(标签与FastDM) - 通过秒级标签为每一帧数据打上数百个维度的标签(如雨天、夜晚、路口、有行人),再配合FastDM(极速挖数引擎),可以上帝视角快速检索特定场景组合 [21] - 这相当于为训练世界模型构建了一个“题库”和“生成指令集”,可以针对现实中最易出事的场景分布,指令世界模型生成大量变种环境进行针对性训练 [21] 第四层:把专家经验变成“自动判卷人”(Trigger框架) - 将资深算法工程师的Debug经验编写成Python Trigger,这些Trigger未来可在世界模型中运行,作为24小时监控虚拟车辆行为的“自动化判卷老师”,对违规行为即时给出负反馈 [22] 第五层:从Bug到课程(问题聚类) - 将零散的Bug聚类成“典型问题场景”,这对应于AI训练中的课程学习,可以分阶段、有重点地训练模型,例如先集中训练“无保护左转”,再高强度训练“鬼探头”场景 [23][26] 物理AI时代的基础设施价值 - **与LLM的差异**:ChatGPT等纯文本模型犯错代价低,而物理AI(如自动驾驶)存在“幻觉致命”风险(如生成违反物理规律的环境),且高质量负样本(如车祸数据)极其稀缺 [27][29] - **核心作用**:实车数据闭环用于校准世界模型的物理参数,并通过Trigger和挖数引擎淘金式挖掘高价值负样本 [28][29] - **未来开发模式**:世界模型作为“生成器”负责发散,生成海量可能路况;数据基础设施作为“判别器”负责收敛,用积累的典型问题库、MPD/MPS指标和实车数据去指引生成方向、评分并进行真实性校验 [29][36] - **长期主义投资**:真正的壁垒在于投资那些“不会变”的事物,如物理世界的客观指标、对优质数据(Corner Case)的筛选逻辑、以及自动化闭环的流程 [33][37] 实践成果与商业验证 - 阿里巴巴达摩院/菜鸟自动驾驶团队在2018至2025年间,实现了从封闭园区运营到公开道路常态化运营的跨越 [35] - 具体成就包括:双十一期间近千台“小蛮驴”在封闭园区并发运营的历史峰值;高速公路L4重卡达成500 MPI的目标;以及约500台公开道路无人车的常态化运营 [35][46] - 该系统创造了千万公里无重大事故的安全记录,并实现了降本增效的商业价值,证明了自动驾驶技术的生产力属性 [38]
去美国试了最新的特斯拉FSD+Grok,我有点被震惊了
36氪· 2026-01-16 08:18
特斯拉FSD V14版本技术更新 - 模型参数量相比V13版本提高了10倍,并将导航和路径规划整合到神经网络中[3] - 新增通过听觉和视觉识别警车、消防车并主动避让的功能[3] - 实现了从车位到车位的自动驾驶,可自动寻找停车场车位或路边停车,但尚不支持自定义车位选择[8] - 提供5种超车策略模式,从最慢的“Sloth”到最激进的“Mad Max”,不同模式间驾驶风格差异明显[8][10] 特斯拉FSD V14版本实际驾驶表现 - 在美国旧金山湾区测试中,跟车、起步、刹停等操作流畅,过弯速度可达70-80公里/小时[12] - 能够进行类人驾驶决策,例如不遵循导航右转掉头而选择直接左转[12] - 存在偶尔不按导航路线行驶,尝试抄近道但失败的情况[12] - 对减速带和坑洼路面的识别能力有限,部分较矮减速带和小坑难以识别[10] - 美国车主曾使用FSD V14完成从洛杉矶到东海岸约4400公里的全程无接管驾驶,包括自动寻找充电桩[5] 特斯拉语音助手Grok的集成与表现 - Grok大幅提升了特斯拉的语音交互体验,能够理解包含三四个地点的模糊语义指令并规划行程[13] - 可根据网络信息提示路况,如前方施工拥堵,但信息准确性有待验证[13] - 目前Grok仅与导航深度结合,尚未与智驾功能(如切换车道、路边停车)联动[16] - 语音交互仍需按压开关激活,未设置唤醒词,对副驾乘客不便[16] 特斯拉Robotaxi运营现状与体验 - Robotaxi目前在美国奥斯汀(真无人驾驶)和旧金山湾区(配备安全员)运营[17] - 打车应用“Tesla Robotaxi”仅上架于苹果App Store,未在安卓Google Play商店提供[19] - 车辆后排配备定制界面,前排车机界面与普通特斯拉相似但移除了车辆设置选项[20][22] - 乘客手机可通过蓝牙自动连接车辆,快速控制音乐和空调[24] - 实际乘坐体验与使用FSD驾驶感受相近,安全员表示接管频率极低[24] - 特斯拉采用量产车的纯视觉方案,相比使用昂贵激光雷达的定制化Robotaxi方案具有成本优势[26] 特斯拉未来计划与行业评价 - 特斯拉计划未来FSD仅提供订阅服务,不再提供买断选项[26] - 公司专为Robotaxi打造的CyberCab车型已在路测,并计划于今年4月量产[27][29] - 英伟达机器人业务负责人评价FSD V14可能已通过图灵测试[26]
英伟达还是放不下自动驾驶
虎嗅APP· 2026-01-13 21:35
文章核心观点 - 英伟达通过发布开源VLA大模型Alpamayo及配套工具链,旨在降低车企开发高阶自动驾驶的门槛,从而巩固并扩大其汽车芯片业务的客户基础与市场地位,这是其对自动驾驶领域发起的一次战略性总攻 [8][12][25] 一、大模型预制菜 - VLA(视觉-语言-行动)模型是当前自动驾驶热门技术路线,其通过将传感器数据转化为语言符号并进行推理决策,解决了端到端模型的黑箱与不可控问题,使算法决策可追溯、可解释 [6][11] - 多家车企已押注VLA路线,包括小鹏(已发布第二代自研模型)、理想、长城、奇瑞,特斯拉FSD V14也被认为采用了类似架构 [10] - 英伟达Alpamayo的核心价值在于开源,它为车企提供了一套完整的底层VLA大模型,车企可基于自有数据微调,大幅降低了开发难度与成本 [12] - 英伟达提供了完整的开发套件:包括开源模型Alpamayo、用于闭环测试的仿真框架AlpaSim,以及超过1727小时驾驶数据的Physical AI开放数据集,为车企提供了“预制菜”式的解决方案 [12][14] 二、英伟达的心事 - 英伟达汽车业务面临挑战:其DRIVE系列芯片虽是中高阶智驾市场霸主,但业务收入增长未达预期,且客户结构存在问题 [17] - 客户存在流失风险:软件算法能力强的客户(如小鹏、蔚来)有自研芯片计划;而销量高的传统车企(如大众、奔驰、宝马)缺乏自动驾驶算法研发能力,难以成为英伟达客户 [23][24] - 公司战略转向“保姆式服务”:为扩大客户基础,英伟达从单纯卖芯片转变为提供“硬件+软件+工具”的全套解决方案,最新推出了涵盖云端训练(Vera Rubin芯片、Cosmos世界模型)与车端推理(Thor芯片、Alpamayo模型)的智能驾驶工具链闭环 [25] - 商业模式在标准化与定制化间重新校准:通过提供开源算法和丰富工具链来降低芯片使用门槛,但坚持不亲自下场为车企做定制化项目,核心目的仍是销售标准化的芯片 [26]
复盘特斯拉FSD进化史:把端到端推向无人驾驶终局
36氪· 2026-01-13 20:14
文章核心观点 - 特斯拉FSD通过V12至V14的三代端到端技术演进,实现了自动驾驶能力的跨越式提升,并在工程化、规模化方面建立了显著领先优势[7][15][45] - 特斯拉的领先源于其在算力投入、数据规模与质量、以及统一技术架构方面构建的深厚基础,这些条件难以被国内企业完全复制[69][82][83] - 国内智驾公司与特斯拉的差距正在从“代际差距”缩小为“工程效率差距”,未来竞争的关键在于如何在有限资源下找到适合自身的最优发展路径[12][86] 特斯拉FSD的技术演进与能力突破 - **V12(端到端基础版)**:通过端到端神经网络,将约30万行代码压缩至约3000行,让AI通过数据驱动学习人类驾驶行为,其能力在几个月内超越了多年的V11版本[18][19][21] - **V13(端到端完整版)**:基于HW4(AI4)硬件平台,AI算力达720TOPS,较HW3提升5倍,并增加了短期记忆与音频输入能力,实现了“车位到车位”的全场景覆盖[29][31][32] - **V14(端到端成熟版)**:模型参数提升4.5-10倍,视觉处理帧率提升至48Hz,并接入了Grok大语言模型,具备了意图理解和决策可解释性,为Robotaxi无安全员运营奠定基础[40][42][44] - **标志性成就**:搭载FSD V14的Model 3以0接管完成了从洛杉矶到南卡罗莱纳州约4400公里(2732英里)的横穿美国大陆行程,耗时2天20小时,远超2015年德尔福改装车耗时9天的记录[2][5][6] 特斯拉应对端到端技术挑战的策略 - **提升可解释性与安全性**:采用“生成式高斯泼溅”技术,在约220毫秒内重建三维环境,让工程师能理解模型的“世界观”,同时内置小型语言推理模型解释AI行为[52][54][55] - **革新训练方式**:打造“神经世界模拟器”,通过合成未来状态来验证模型优劣并生成低频极端场景进行测试,让系统理解决策后果而非单纯模仿动作[56][59][61] - **前瞻性布局**:在端到端规模化之前,就致力于构建可生成、可推演的世界模型作为基础设施,而非出现问题后打规则补丁[62][64][65] 特斯拉构建的竞争壁垒(基座) - **压强级算力投入**:转向以NVIDIA GPU为核心的Cortex训练集群,初始部署约5万张H100 GPU,2025年Q2新增1.6万张H200 GPU,整体训练能力进入数十至上百EFLOPS区间[70][72][73] - **高质量数据闭环**:截至2026年1月8日,FSD(监督版)累计行驶里程达71.73亿英里,其中城市复杂路况超25.9亿英里,车队每日数据相当于500年人类驾驶时长,并通过数据引擎高效挖掘Corner Case[76][77][78] - **统一架构与工程主义**:让同一套世界模型、感知与推理架构服务于自动驾驶、Robotaxi及人形机器人,兼容并蓄各种技术路径(端到端、世界模型、VLA等),不受单一范式束缚[67][82][83] 国内智驾行业的现状与展望 - **与特斯拉的差距**:国内头部企业(如小鹏)总算力约10 EFLOPS,年度AI投入约50亿元人民币,与特斯拉存在资源数量级差距,但技术差距已从最早的三年缩短至约一年[12][13][74] - **发展路径分化**:受资源限制,国内企业在技术路径上呈现分化,包括采用两段式端到端、引入VLA/世界模型或专注打磨中阶智驾体验等现实选择[51][85][86] - **未来竞争焦点**:差距性质转变为“工程效率差距”,竞争关键在于如何在有限资源下,将模型、数据与产品打磨扎实,并找到适合自身资源结构的最优路径(如合并资源、绑定主机厂、开拓细分场景)[86]
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2026-01-12 17:20
行业趋势与研究方向 - 自动驾驶前沿研究方向窗口期有限 正被大厂和头部高校激烈竞争[2] - 对于计算机和自动化背景的研究者 深度学习方向如VLA、端到端、世界模型具有从入门到工作及读博的广阔发展空间[2] - 对于机械和车辆背景的研究者 建议从传统PnC、3DGS等算力要求低、入手简单的方向开始学习[2] - 行业前沿研究方向包括端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷达、单目感知、车道线/在线高精地图等[3] 研究支持服务 - 提供涵盖论文选题、全流程指导、实验指导及申博指导等研究支持服务[6][9] - 服务已成功帮助多篇论文被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶会顶刊收录[7] - 服务覆盖的论文级别包括自动驾驶顶会/顶刊 CCF-A/B/C SCI一区至四区 中科院1至4区 EI/中文核心 以及毕设论文、申博和比赛等[10]