Workflow
MOE架构
icon
搜索文档
BigBite解析,Tesla FSD就是一个端到端大模型
自动驾驶之心· 2026-01-27 17:40
Tesla FSD 技术架构解析 - 文章核心观点认为,Tesla FSD 是一个端到端的大模型方案,而非数百个小场景模型的简单组合,其技术先进性体现在工程化实现上[4][5][17] 关于FSD模型性质的争论与澄清 - 有观点根据黑客green的发现,质疑FSD由数百个小模型组成,但作者指出这种理解有误[5][8] - 作者明确结论:Tesla FSD 就是一个大模型,使用一个巨大的神经网络完成从图像输入到控制输出的端到端计算[6][7][14] 对模型参数文件的解读 - green 发现 HW3 上的 FSD v12.6 在 A核有1.2GB、189个参数文件,在 B核有2.3GB、110个参数文件,其中61个为共享文件[8] - HW4 上的 v13 模型参数增长至 A核2.3GB,B核7.5GB[8] - B核参数文件数量少但总大小更大,表明后期端到端模型的主要参数集中在B核[10] - 大量的参数文件并非独立的单模型,而可能是一些小任务Head的模型参数,或用于数据采集触发等继承自旧版本的功能[10] - 部分参数文件的命名规则(如FSD_E2E_FACTORY_PART_X)表明它们属于一个大模型的分片,这是大模型分布式部署的常见做法[11] 硬件带宽与模型规模的关系 - HW3 使用 LPDDR4-4266,带宽为68GB/s,理论上支持36Hz输出的模型参数上限约为1.8GB(18亿参数),这与B核2.3GB的参数文件大小基本匹配[12] - HW4 使用 GDDR6 显存,带宽高达384GB/s,若使用FP8参数类型,理论上可在36Hz下支持约100亿参数的端到端模型[12] - HW4 上B核参数文件大小(7.5GB)相比HW3(2.3GB)的增长,与公司此前宣称的参数量增加约3.5倍的说法基本对应[12] 模型扩展性与MOE架构 - 尽管硬件带宽限制了参数扩展空间,但公司通过采用类似混合专家(MOE)的架构,在推理时仅部分激活专家网络,从而节省显存带宽开销,大幅提升模型的等效参数量[13] - 基于HW4的16G显存容量和可能的模型并行策略,未来FSD模型参数继续大幅增加是可能的[13] - 公司可能在特定场景(如厂区自动出场)使用一些本地化参数,这被理解为通过MOE方式增加的额外专家参数,而大部分驾驶场景的参数是共用的[13][15] 对技术先进性的看法 - 作者反驳了将FSD视为“落后”技术的观点,强调工程化创新同样是技术进步的重要体现,并以可回收火箭和发动机阵列为例进行类比[17] - 作者认为,将先进科学发现转化为成熟落地的技术,其本身代表了巨大的科技进步[17]
BigBite思维随笔分享特斯拉FSD就是一个端到端大模型的视角
理想TOP2· 2026-01-24 23:11
文章核心观点 - 文章核心观点是反驳“特斯拉FSD是近200个小场景模型组合”的说法,并论证特斯拉FSD是一个端到端的大模型方案,其技术先进性体现在工程创新上,而非落后技术 [1][11] 技术架构与参数分析 - 特斯拉FSD V12端到端化后神经网络规模急速膨胀,早期A、B核互为冗余的设计已难以实现完全冗余 [5] - 在挖掘出的模型参数文件中,B核神经网络参数远多于A核,两者共用的参数文件仅有61个 [5] - B核参数文件数量虽少但总文件大小更大,原因是后期端到端的大规模模型参数主要集中在B核 [5] - 大量规模不大的参数文件可能不属于端到端网络,而是继承自V11以前的小任务Head模型参数,例如控制自动雨刷的视觉神经网络和数据采集触发相关的感知任务 [5] - 许多模型参数是一个大模型的部分参数,命名规则为“FSD E2E FACTORY PART X”,这与特斯拉在AI Day介绍的分布式模型部署方式相符 [6] 硬件限制与模型规模 - 特斯拉HW3使用LPDDR4-4266显存,带宽为68GB/s,为支持36Hz控制输出,模型参数规模理论上限约为1.8GB [7] - HW3主要支持INT8,因此FSD V12稠密计算的理论参数上限约为18亿参数 [7] - 实际发现HW3上承载大部分端到端参数的NodeB参数文件大小为2.3GB,与理论估算基本匹配 [7] - 特斯拉HW4使用了成本高昂的GDDR6显存,带宽高达384GB/s,据称使用FP8参数类型,理论上可在36Hz下支持约100亿参数的端到端模型 [7] - 对比HW3与HW4上NodeB的参数文件大小,与FSD Release Note中提到的参数量增加约3.5倍的说法可以对应,因此该增长倍数可信 [7] 模型扩展与MOE架构 - 尽管HW3和HW4的显存带宽限制了参数扩展空间,但特斯拉通过采用混合专家网络架构实现了模型规模的突破 [8] - MOE架构允许在现有显存容量基础上,通过部分激活专家网络来节省显存带宽开销,从而最大化等效参数量 [8] - 考虑到HW4拥有16G显存容量及可能的模型并行部署策略,FSD V14模型的参数再次大幅增加是可能的 [8] - 对于不同区域或场景,特斯拉采用了一种广义解决方案,并可能通过MOE方式增加本地化的专家参数,而非完全切换独立的模型 [9] - 引用埃隆·马斯克观点:为不同区域和地点使用一组本地化参数具有价值 [9] - 引用Ashok Elluswamy观点:特斯拉仍采用广义方法,例如在中国部署FSD监督版时,仅使用极少的中国特定数据,模型就能很好地泛化到完全不同的驾驶风格;可以将特定位置的参数视为混合专家 [9] 技术先进性与工程创新 - 特斯拉FSD是一个端到端的大模型方案,其端到端程度可能超出此前普遍估计 [11] - 技术先进性不仅体现在科学发现,工程创新同样是伟大的科技进步,例如可回收火箭和利用猛禽发动机组合阵列获得巨大推力 [11] - 特斯拉和SpaceX等公司的成就证明了其是先进的科技公司,而非落后或伪装的科技公司 [11]