有消息称FSD不是端到端One Model,而是近200个小场景模型的组合......

特斯拉FSD技术架构分析 - 特斯拉并非采用单一的“One Model”端到端模型,而是由近200个小场景神经网络模型组合而成 [4] - 根据对HW4固件的反向分析,其包含两套模型组合:节点A有189个神经网络,节点B有110个神经网络,其中61个为两者共享 [4] - 系统针对不同驾驶场景(如工厂、高速公路、城市街道)和不同速度(常规与低速)部署了独立的端到端模块 [5] - 模型采用分块化设计,各部分根据运行需求表现为独立运行或流水线式协作 [6] 硬件平台模型演进 - HW3与HW4平台共享的神经网络数量总计达到135个 [7] - HW3平台在v12.6版本中,节点A大小为1.2G,节点B大小为3.1G [8] - HW4平台在v13版本中,节点A大小增至2.3G,节点B大小大幅增至7.5G,新增模型尺寸远大于HW3 [8] 工程实现与性能考量 - 特斯拉FSD的流畅性并非完全依赖算力和模型,很大部分得益于其重写了车控操作系统,显著降低了从控制到执行的延时 [23] - 在HW3平台上,带宽仅为68GB/s,模型总尺寸约为HW4的一半,在此条件下运行一个庞大的单一模型无法达到现有速度 [15][16] - 在现有智驾芯片散热功耗通常限制在100瓦左右的条件下,一味增大模型参数量会带来显著的时延问题 [17][18] - 输入图像信息及上下文会产生1000多个Token,导致Profile阶段延迟;输出更精确的Action Token越多,延迟也会越大 [17] 行业技术对比与趋势 - 当前大模型领域正在引入类似的多模型协作思路,例如Agent模式,GPT-4o被认为可能通过路由机制将任务分配给不同模型处理 [9] - 马斯克的Grok模型也采用类似思路:Grok 4为标准单代理版本,Grok 4 Heavy为多代理版本 [10] - 但FSD的模型组合目前尚不能与LLM领域的Agent概念完全类比,因其一般场景下缺乏推理能力,更像是各司其职的模块化组合 [11] - 国内一些智驾方案(如地平线)很可能也非真正的“One Model”,主要是受特斯拉营销概念影响而跟随 [25] - 行业内普遍认为,国内多数“一段式端到端”方案是以一个主模型承担主要功能(约95%),并辅以小模型优化,并非严格意义上的端到端 [2]

有消息称FSD不是端到端One Model,而是近200个小场景模型的组合...... - Reportify