Workflow
端到端框架
icon
搜索文档
ICCV 2025 Foundational Model for FSD专题演讲解读:汽车行业双周报(20251020-20251102)-20251105
华源证券· 2025-11-05 09:17
行业投资评级 - 投资评级:看好(维持)[3] 报告核心观点 - 报告核心观点为解读特斯拉在ICCV 2025会议上分享的FSD端到端基础模型,系统阐述了特斯拉从模块化转向端到端架构的原因、面临的挑战及解决方案、模型评估方法以及该模型强大的跨形态迁移能力,并基于此提出产业链投资建议 [3][4][9] 特斯拉转向端到端架构的原因 - 从V12版本开始,特斯拉FSD全面转向端到端框架,采用单一大型神经网络,直接以像素等传感器数据为输入,输出控制指令,不再显式执行感知任务 [7] - 模块化框架难以精确编码人类价值观,例如刹车与绕行的取舍、避让水坑的风险权衡等主观决策 [12] - 模块化框架中感知与预测规划间的接口定义会造成信息传递损失,端到端框架能基于完整场景理解做出更优决策,如应对鸡、鹅过马路等特殊场景 [14][16] - 端到端架构能更好地应对现实世界的长尾问题,并受益于同构计算带来的确定性延迟,同时更契合AI领域的数据规模效应(Scaling-law) [20] 端到端架构面临的挑战及解决方案 - 端到端系统面临三大主要挑战:维度灾难、可解释性与安全保证、模型评估 [20] - 维度灾难体现为约20亿tokens的输入需映射到仅2个tokens的输出(方向盘和加减速信号),特斯拉通过复杂的数据触发机制回传长尾场景数据以应对,其车队每日可产生相当于500年驾驶时长的数据 [22][24] - 为保证可解释性与安全,端到端模型可通过提示词输出多样的中间结果(如占用、交通信号灯等)并进行车机渲染,并采用类似理想、小鹏的VLA/VLM框架,通过“快慢”双系统在需要时启用深度推理 [31][35] - 特斯拉采用3D高斯溅射(3DGS)技术进行场景重建,其生成式3DGS较传统3DGS在渲染时间(从约30分钟优化至220毫秒)、动态对象处理和新视角生成质量上有显著提升 [38][43][47] 模型评估体系与仿真工具 - 模型评估至关重要,需建立多元化评价体系,重视闭环测试,并评估驾驶行为可能造成的结果 [48][49] - 特斯拉基于车队收集的“状态-动作”对构建世界模拟器,该模拟器可与策略网络闭环运行,用于仿真测试 [50][51] - 世界模拟器能基于单一神经网络生成8路摄像头视角的1分30秒长视频,并保持跨视角一致性,可用于历史问题库场景回放和合成新问题以测试系统 [52][56][58] - 通过降低计算精度,世界模拟器可实现接近实时的渲染,支持长时间(如6分钟)的稳定生成和闭环强化学习测试 [62] 模型的跨形态迁移能力 - 特斯拉FSD的神经网络模型具备强大的可迁移性,可复用于Robotaxi和人形机器人Optimus等不同形态,只需在训练数据中增加相应样本即可实现泛化 [63][68] 投资分析意见 - 投资分析意见建议关注数据积累丰富且技术路线近似特斯拉的头部智驾整车公司,如理想、小鹏 [4][70] - 建议关注核心环节Tier1,包括线控转向(耐世特、浙江世宝)、线控制动(伯特利) [4][70] - 建议关注大算力域控制器相关公司,如德赛西威、均胜电子、经纬恒润、中科创达 [4][70] - 建议关注增量零部件领域,包括激光雷达(禾赛科技、速腾聚创、图达通)和大算力芯片(地平线机器人、黑芝麻智能) [4][70] - 建议关注Robotaxi运营(文远知行、小马智行、曹操出行、千里科技)和RoboVan(九识智能、新石器)等相关公司 [4][70]