Workflow
Waymo自动驾驶最新探索:世界模型、长尾问题、最重要的东西
自动驾驶之心·2025-10-11 07:32

Waymo自动驾驶技术框架 - 公司开发名为Waymo基础模型的大规模AI模型,该模型支持车辆感知环境、预测其他车辆行为、模拟场景并做出驾驶决策[5] - 模型功能类似于ChatGPT等大型语言模型,基于海量数据集训练学习模式并进行预测,能够整合多源传感器数据理解周围环境[5] - 车端部署较小模型,通过知识蒸馏技术从云端大型教师模型提炼而来,针对速度和效率优化,在每辆车上实时运行[5] - 感知和行为任务包括物体感知、行为预测和行动规划均可实时在车上执行[7] - 云端大模型可模拟真实驾驶环境,在部署前进行虚拟测试和验证决策[7] 世界模型技术特性 - 世界模型能够编码所有传感器数据(摄像头、雷达、激光雷达)并内置世界知识,解码所有驾驶相关任务[11] - 通过蒸馏缩小后放置在车端进行感知和控制,在云端进行虚拟仿真,实现强大泛化能力和快速适应不同平台[11] - 该模型基本解决自动驾驶日常问题,重点转向解决长尾问题[11] 长尾问题解决方案 天气挑战 - 雨后路况水坑及不常发生洪水需要算法判断水深和大量上下文信息,对精确度和召回率要求极高[12] - 采用视觉语言模型解法,但需要大量此类语料库支持[12] - 雪地驾驶对硬件要求高,传感器需加热和清洁功能应对堵塞,挑战包括行驶路线决策、车辙识别和摩擦力估计[14] 能见度与遮挡处理 - 极端低能见度情况下如夜间高速公路,需要多模态传感器协同检测[15] - 凤凰城沙尘暴环境中激光雷达可在尘暴中清晰看到行人[15] - 遮挡推理需解决视线不佳区域物体存在状态判断,挑战包括定义不明确、非确定性、缺乏真值基准等[18] - 解决方案包括估计不确定物体先验信息(通过驾驶数据统计和微弱传感器线索)以及准确估计自车速度先验[21] 复杂场景理解 - 施工场景需识别标志、推理驾驶几何形状,根据锥筒等物体调整路线[24] - 动态场景如交通警官手势需要实时响应动态信号[24] - 活跃事故现场涉及大量应急车辆和路况堵塞,需要整体场景理解而非单个物体识别[24] - 复杂场景需使用大语言模型理解场景内容并做出决策,公司表示仍在探索阶段[24] 自动驾驶核心要素 - 自动驾驶作为人工智能落地场景,核心要素为数据、算法、算力三大件[25] - 公司特别强调数据重要性,认为大量数据是基础,但数据筛选和整理更为关键[25] - 高效高质数据能确保模型专注于解决正确问题[25] - 数据挖矿中视频搜索能力对理解事件含义至关重要,如汽车碰撞、漂移等[30] 系统响应性能要求 - 快速实时决策被强调为安全性和流畅性关键,算法到执行链路用时越短越优[30] - 响应速度拆解为传感器输入响应、算法运算结论输出、底盘执行机构三个环节[30] - 当前快速响应决策主要受限于各家算法处理输出响应频率[31] - 摄像头帧率大于24Hz,算法输出帧率需达到10Hz或20Hz,底盘刹车ESP响应频率达上百Hz[36] 运营基础设施 - Depots运营停车场和改装工厂被公司视为L4运营最重要设施[33] - 车辆可自动进入停车场寻找充电空位,充完电拔枪后自动驶出运营[33] - 改装车间完成传感器安装后,车辆可自动驶出生产线,直接进入运输卡车或开始运营[33] 行业发展趋势 - 辅助驾驶与自动驾驶产业最终将交叉融合,因算法软件底层逻辑相同[4] - 中国辅助驾驶算法公司如Momenta、元戎、大疆与L4公司共同在欧洲和中东市场拓展[4] - 工程落地是行业较大壁垒,需要协同汽车开发与测试运营,优秀自动驾驶公司多挖角传统汽车工程师[34]