特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线
特斯拉特斯拉(US:TSLA) 36氪·2025-10-27 16:11

技术发布与核心观点 - 特斯拉在计算机视觉顶会ICCV上展示了其世界模拟器 该模拟器能够生成逼真的驾驶场景视频 [1] - 特斯拉自动驾驶副总裁Ashok Elluswamy首次揭秘了公司的自动驾驶技术路线图 并明确表示端到端AI是智能驾驶的未来 [1][5] 世界模拟器功能与应用 - 世界模拟器可为自动驾驶任务生成新的挑战场景 例如模拟右侧车辆突然连并两条线闯入预设路径 [2] - 生成的场景视频不仅用于自动驾驶模型的训练 也可作为电子游戏供人类体验 [2] - 该模拟器技术同样适用于其他具身智能场景 如特斯拉的擎天柱机器人 [4] 端到端自动驾驶技术优势 - 特斯拉采用端到端神经网络实现自动驾驶 该网络利用来自多个摄像头、运动信号、音频及地图等数据 直接生成车辆控制指令 [8] - 端到端方法相比模块化方法的主要优势包括:更易于从数据中学习人类价值观、通过梯度整体优化网络、易于扩展处理长尾问题、具有确定性延迟的同质计算 [8] - 该方法能处理复杂权衡 例如在视野开阔且对向车道无车时 决策借用对向车道绕过积水 这用传统编程逻辑难以表达 [8][10] 端到端自动驾驶的挑战与解决方案 - 端到端自动驾驶面临评估困难 特斯拉的世界模拟器正是针对此难题 它使用海量数据集训练 能根据当前状态和行动合成未来状态 用于闭环性能评估和大规模强化学习 [11] - 系统面临"维数灾难" 输入信息量巨大 例如7个摄像头×36FPS×5百万像素×30秒画面等数据 大约会产生20亿输入Token 而神经网络需将其精简为2个输出Token(转向和加速) [13] - 为解决维数灾难 特斯拉通过庞大车队每天收集相当于500年驾驶总和的数据 并使用复杂数据引擎筛选高质量样本 以提升模型泛化能力 [13] - 针对可解释性和安全性调试困难的问题 模型可以生成可解释的中间Token用作推理Token [15] 技术实现细节 - 特斯拉的生成式高斯泼溅技术具有出色泛化能力 无需初始化即可建模动态物体 并可与其他模型联合训练 [18] - 该技术中所有的高斯函数均基于量产车配置的摄像头生成 [20] - 推理过程可通过自然语言和视频背景进行 该推理模型的一个小版本已在FSD v14.x版本中运行 [21] 行业技术路线对比 - 尽管端到端被视为未来 但业界在具体算法路线上存在VLA和世界模型之争 [24] - 华为和蔚来是世界模型路线的代表 而元戎启行和理想则选择VLA路线 也有观点认为应结合两者 [24] - VLA路线的优势在于可利用互联网海量数据积累常识 并借助语言能力进行长时序推理 有尖锐观点认为不使用VLA是因为算力不足 [24] - 世界模型路线支持者则认为其更接近问题本质 例如华为车BU CEO靳玉志认为VLA路径看似取巧并不能真正实现自动驾驶 [24] - 特斯拉的方案备受关注 因其在自动驾驶发展历程中的技术选择具有风向标意义 [24]