可解释性和安全保证
搜索文档
特斯拉Ashok ICCV'25讲FSD与QA|952字压缩版/完整图文/完整视频
理想TOP2· 2025-10-23 23:33
技术架构转型 - 特斯拉转向采用单一、大型的端到端神经网络,直接接收像素和其他传感器数据作为输入,并输出下一个控制动作,不再依赖显式的感知模块[1][2][34] - 转向端到端架构的原因包括:将人类驾驶价值观(如平顺性)编入代码极其困难;传统模块化架构的接口定义不佳易导致信息丢失;该架构易于扩展以处理现实世界的长尾问题;并能实现具有确定性延迟的同构计算,这对实时系统至关重要[3][4][5][6][36] - 该技术路径被认为是解决机器人技术的正确方法,其优势在处理复杂场景时尤为明显,例如为避开路面水坑而驶入对向车道,或理解鸡群过马路的意图并耐心等待,这些决策难以用显式代码编写[40][46] 核心挑战与解决方案 - 面临维度灾难挑战,输入上下文极长,例如30秒窗口可达20亿个token[7][10][48] - 解决方案是利用庞大的特斯拉车队数据,通过基于触发器的机制(如用户干预、状态空间大变化)精准挖掘有价值的极端场景数据,而非海量普通数据,从而使模型能泛化到极端场景,实现主动安全[11][51][56] - 在高速公路上演示了系统的主动安全能力,当前方车辆失控撞向护栏时,系统不仅判断一阶碰撞风险,更预判了车辆反弹回车道的二阶效应,提前实施了约4米每平方秒的强力刹车[57][58] 可解释性与调试方法 - 端到端模型可被提示预测多种可解释的辅助输出用于调试和安全保证,包括3D占用和流、物体、交通控制、道路边界、语义以及自然语言表达的决策[12][13][60] - 生成式高斯溅射技术相比传统方法有显著提升,优化时长从约30分钟缩短至220毫秒,无需3D关键点初始化,能更好处理动态物体,且新视角生成质量更高[15][65][66] - 模型支持自然语言交互和“系统2思考”,在需要时可花费更长时间生成推理token,再产生与推理一致的行动,避免了始终推理导致的延迟[16][69] 评估体系创新 - 评估是最大挑战,好的开环性能不保证好的闭环结果,需要平衡且详尽的评估集,而非随机采样的大量普通驾驶数据[9][17][18][71] - 核心解决方案是神经网络闭环模拟器,该模拟器使用易于收集的状态-动作对数据训练,能生成所有8个摄像头的一致视频流(长达数分钟),并可与策略神经网络连接在闭环中模拟世界[19][20][22][77][79] - 该模拟器能重放历史失败案例以评估新策略,并能合成创造新的对抗性事件(如车辆横切)来测试极端案例,渲染性能接近实时,允许人类在模拟器中实时驾驶测试[23][24][81][82] 技术应用与扩展 - 下一代Cyber Cab是为robotaxi设计的专用车辆,旨在实现低于公共交通的交通成本,并由相同的端到端神经网络技术驱动[25][83] - 相同的核心技术,包括视频生成,可无缝转移到其他人形机器人Optimus上,展示了其在工厂内导航并生成一致视频的能力,体现了技术的高度可扩展性[26][84][86] - 公司全身心投入于机器人技术,致力于为世界生产智能、有用、大规模的机器人,并将该技术扩展到不同的车辆平台、地理位置和天气条件[83][84][87]