特斯拉再添一把火,「世界模型」如何重塑自动驾驶?

特斯拉FSD技术进展 - 系统采用以视频为主的多模态输入进入端到端模型,直接输出控制指令,感知、预测、决策、控制在单一神经网络中耦合回传[1] - 为应对输入数据量巨大的维度灾难,公司利用海量车队数据总结“关键token”,通过稀疏化和聚合保留最有用信息,以降低推理时延[3][4] - 在车端模型中引入可解释的中间输出,包括全景分割、3D占据网络、基于三维高斯渲染的场景重建和语言化输出,以辅助审视推理过程[6] - 生成式高斯喷溅技术具备更强泛化能力,生成场景仅需220毫秒,无需初始化,可建模动态物体,并能与端到端AI模型联合训练[9] - 开发神经世界模拟器,该模拟器基于自建海量数据集训练,可根据当前状态与下一步动作生成未来状态,用于闭环评估和生成对抗性场景[10][13] 世界模型的核心能力与定义 - 世界模型是一个生成式时空神经系统,将多模态输入压缩成潜在状态,该状态编码几何、语义信息及因果上下文,并能在潜在空间内推演环境未来[18] - 核心能力包括将高维多模态感知输入映射到低维潜在状态,该状态需包含环境几何、语义信息并能随时间更新以捕捉状态转移[20] - 需具备在给定候选动作条件下生成多步未来场景的能力,进行“假如采取此动作,场景会如何变化”的因果推理,而非单纯预测[21] - 模型生成的未来场景直接用于评估不同动作的风险和收益,实现预测与规划的深度耦合,从而在端到端框架中直接输出控制信号[22] - 需在潜在状态空间内表示多参与者的位置、速度、意图并跟踪其互动,同时给出一组可能的未来轨迹,而非唯一答案,以供系统权衡[23] 中国公司的世界模型实践 - 蔚来汽车发布中国首个驾驶世界模型NWM,可在100毫秒内推理216种可能驾驶场景并选取最优决策,能用3秒历史视频生成长达20秒的未来视频[28][30] - 蔚来NWM首个版本已推送,新增功能包括驾驶员失能处置升级为“自主安全靠边”、追尾预防与保护最大可将被动前移距离降低93%、通用障碍物预警增强等[33] - 华为坚持WA世界-行动模型路线,跳过语言层直接从多模态感知信息生成驾驶指令,其WEWA架构通过云端World Engine进行“梦境训练”并OTA下发参数至车端[36][39][40] - 商汤绝影推出“开悟”世界模型用于生成高保真仿真数据,可生成11个摄像头视角时空一致视频达150秒,日生产能力一块A100 GPU相当于10辆真实车采集能力[41][44] - 商汤WorldSim-Drive数据集包含超过100万段生成式驾驶片段,覆盖50多种天气与光照条件,目前已有20%的训练数据来自世界模型生成[44][45] 世界模型与VLA的路线对比 - 世界模型采用潜在时空表示,核心是一个可随时间演化的物理世界模拟器,通过自监督压缩器将感知数据编码为潜在状态并演化未来[46] - VLA模型以视觉-语言-行动统一架构为特征,引入大型语言模型将视觉感知映射为自然语言,利用语言链式推理生成决策或动作指令[46] - 世界模型推理依赖动作条件的内在仿真,在潜在世界中生成不同未来场景并用代价函数选择最佳动作,适合物理世界的对抗和长期评估[49] - VLA模型推理依赖语言链路,利用LLM的常识和逻辑推理能力通过自然语言解释场景、制定规则后输出控制信号,赋予系统更强可解释性[49] - 世界模型着重长时域、多主体和物理一致性,可生成复杂环境长期演化;VLA模型更强调语义推理与高层交互,具备链式思考能力[49]