文章核心观点 - Waymo推出了基于DeepMind Genie 3构建的全新世界模型Waymo World Model,旨在通过生成高度逼真、可交互的3D仿真环境,为自动驾驶系统提供大规模、超真实的训练与测试能力,以应对现实世界中罕见和极端的“长尾”场景[1][4] 技术基础与架构 - 模型建立在Google DeepMind的通用世界模型Genie 3之上,并针对自动驾驶需求进行了专业化适配[4] - 模型能够生成高度逼真且可交互的3D环境,并支持生成高保真、多传感器数据,包括摄像头图像和激光雷达点云[4] - 通过专门的后训练流程,将Genie 3从庞大2D视频数据中学习到的世界知识,迁移到了Waymo硬件套件独有的3D激光雷达输出中,实现了跨传感器模态的场景生成[8] 核心能力与优势 - 大规模仿真经验:Waymo Driver在真正驶上公共道路前,已在虚拟世界中行驶了数十亿英里,远超其近2亿英里的真实道路行驶里程[4] - 处理罕见与极端场景:模型可以模拟现实中几乎无法大规模复现的罕见事件,例如遭遇龙卷风、大象、长角牛等[4][9][10] - 强大的模拟可控性:通过三种主要机制实现高度可控的仿真[11] - 驾驶行为控制:创造响应迅速的仿真器,遵循特定驾驶输入,用于模拟“如果…会怎样”的反事实事件[11] - 场景布局控制:允许自定义道路布局、交通信号灯状态以及其他道路使用者的行为,以创建定制场景[13] - 语言控制:最灵活的工具,可用于调节时间、天气状况,甚至生成完全合成的长尾场景[16][17][19] - 真实感与准确性:可将普通相机拍摄的视频(如行车记录仪视频)转换为多模态仿真,呈现Waymo Driver在同一场景下的“所见”,该过程在真实感和事实准确性上达到最高水平[22] - 可扩展推理:通过高效变体模型,可以在显著降低计算量的同时模拟更长的场景(如4倍速播放),并保持高真实感与高保真度,支持大规模仿真[24][25] 应用与行业影响 - 该模型是支撑Waymo进行大规模虚拟测试的核心基础设施,使自动驾驶系统能够在现实世界之外,提前掌握应对真实世界复杂挑战的能力[4] - 通过模拟罕见、极端边缘场景(如逆向行驶车辆、极端天气、动物穿行、繁忙街区穿行等),为自动驾驶系统设立了更严格的安全基准,确保其在现实道路上遇到类似挑战前已具备应对能力[5][6][9][27][28]
Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景