文章核心观点 - 文章核心观点是反驳“特斯拉FSD是近200个小场景模型组合”的说法,并论证特斯拉FSD是一个端到端的大模型方案,其技术先进性体现在工程创新上,而非落后技术 [1][11] 技术架构与参数分析 - 特斯拉FSD V12端到端化后神经网络规模急速膨胀,早期A、B核互为冗余的设计已难以实现完全冗余 [5] - 在挖掘出的模型参数文件中,B核神经网络参数远多于A核,两者共用的参数文件仅有61个 [5] - B核参数文件数量虽少但总文件大小更大,原因是后期端到端的大规模模型参数主要集中在B核 [5] - 大量规模不大的参数文件可能不属于端到端网络,而是继承自V11以前的小任务Head模型参数,例如控制自动雨刷的视觉神经网络和数据采集触发相关的感知任务 [5] - 许多模型参数是一个大模型的部分参数,命名规则为“FSD E2E FACTORY PART X”,这与特斯拉在AI Day介绍的分布式模型部署方式相符 [6] 硬件限制与模型规模 - 特斯拉HW3使用LPDDR4-4266显存,带宽为68GB/s,为支持36Hz控制输出,模型参数规模理论上限约为1.8GB [7] - HW3主要支持INT8,因此FSD V12稠密计算的理论参数上限约为18亿参数 [7] - 实际发现HW3上承载大部分端到端参数的NodeB参数文件大小为2.3GB,与理论估算基本匹配 [7] - 特斯拉HW4使用了成本高昂的GDDR6显存,带宽高达384GB/s,据称使用FP8参数类型,理论上可在36Hz下支持约100亿参数的端到端模型 [7] - 对比HW3与HW4上NodeB的参数文件大小,与FSD Release Note中提到的参数量增加约3.5倍的说法可以对应,因此该增长倍数可信 [7] 模型扩展与MOE架构 - 尽管HW3和HW4的显存带宽限制了参数扩展空间,但特斯拉通过采用混合专家网络架构实现了模型规模的突破 [8] - MOE架构允许在现有显存容量基础上,通过部分激活专家网络来节省显存带宽开销,从而最大化等效参数量 [8] - 考虑到HW4拥有16G显存容量及可能的模型并行部署策略,FSD V14模型的参数再次大幅增加是可能的 [8] - 对于不同区域或场景,特斯拉采用了一种广义解决方案,并可能通过MOE方式增加本地化的专家参数,而非完全切换独立的模型 [9] - 引用埃隆·马斯克观点:为不同区域和地点使用一组本地化参数具有价值 [9] - 引用Ashok Elluswamy观点:特斯拉仍采用广义方法,例如在中国部署FSD监督版时,仅使用极少的中国特定数据,模型就能很好地泛化到完全不同的驾驶风格;可以将特定位置的参数视为混合专家 [9] 技术先进性与工程创新 - 特斯拉FSD是一个端到端的大模型方案,其端到端程度可能超出此前普遍估计 [11] - 技术先进性不仅体现在科学发现,工程创新同样是伟大的科技进步,例如可回收火箭和利用猛禽发动机组合阵列获得巨大推力 [11] - 特斯拉和SpaceX等公司的成就证明了其是先进的科技公司,而非落后或伪装的科技公司 [11]
BigBite思维随笔分享特斯拉FSD就是一个端到端大模型的视角