Workflow
Waymo基础模型
icon
搜索文档
Waymo刚刚的基座模型分享:快慢双系统端到端 & 世界模型仿真
自动驾驶之心· 2025-12-10 09:28
Waymo的整体人工智能战略与核心架构 - 公司正通过将“可验证安全的人工智能”置于核心优先级来攻克自动驾驶挑战,安全是从底层设计模型与人工智能生态系统的核心准则[2] - 公司打造了一套极其先进的人工智能系统,已实现大规模安全落地于物理世界,完全自动驾驶里程已远超1亿英里[2] - 在运营区域,与人类驾驶员相比,严重事故发生率降低了十倍以上[2] - 公司的人工智能方案以Waymo基础模型为核心,支撑起统一的可验证安全人工智能生态系统,实现加速、持续的学习与迭代优化[2] Waymo基础模型:核心支柱与架构 - Waymo基础模型是一款多功能、顶尖的“世界模型”,为整个人工智能生态系统提供动力[5] - 其创新架构相比纯粹的端到端方案或模块化方案具备显著优势,充分利用习得嵌入的强大表达能力,并在训练过程中支持完整的端到端信号反向传播[8] - 模型采用“快速反应与深度思考”(系统1与系统2)的架构,包含两个不同的模型组件[10] - 两个编码器的输出接入世界解码器,该解码器利用输入数据预测其他道路使用者的行为、生成高清地图、规划车辆行驶轨迹,并为轨迹验证提供信号[11] 人工智能生态系统:三大组件与知识蒸馏 - 基于整体方案,Waymo基础模型为“驾驶员”、仿真器和评估器提供动力[12] - 公司首先将基础模型适配这三大任务,训练出大型、高质量的教师模型,然后通过安全的模型蒸馏技术,将其转化为更小的学生模型,以在保留卓越性能的同时得到更紧凑、高效的版本[12] - “驾驶员”教师模型经过训练能够生成安全、舒适且合规的动作序列,通过蒸馏技术将其世界理解能力和推理能力迁移至学生模型,优化后用于车载实时部署[14] - 仿真器教师模型能够创建高保真、多模态的动态虚拟世界,学生模型则是这些大型模型的计算高效版本,专为满足大规模仿真任务而设计[14] - 评估器教师模型能够分析驾驶行为并生成高质量的反馈信号,学生模型会分析驾驶日志,识别场景并对驾驶质量提供细致反馈[16] 关键模型组件:感知与语义理解 - 用于快速反应的传感器融合编码器作为基础模型的感知组件,能实时融合摄像头、激光雷达和雷达的输入数据,生成目标物体、语义信息及丰富的嵌入特征[15] - 用于复杂语义推理的驾驶视觉语言模型基于Gemini大模型训练而成,借助其海量世界知识,以更好地理解道路上罕见、新颖且复杂的语义场景[15] 构建持续优化的飞轮效应 - 公司内部学习循环由仿真器和评估器提供动力,利用强化学习在安全可控的仿真环境中对“驾驶员”进行大规模训练[17] - 外部学习循环基于真实的完全自动驾驶数据,评估器从海量自动驾驶经验中自动标记次优驾驶行为,生成改进后的替代行为作为训练数据,经严格测试和安全框架确认后部署到真实道路[17] - 公司完全自动驾驶里程已远超人工驾驶数据量,庞大的真实世界完全自动驾驶经验是无可替代的,将这些数据融入飞轮体系使系统能从自身海量经验中学习[19] 行业技术趋势与定位 - 基本上可以断定Waymo在跟随国内的快慢双系统端到端方案,和理想的E2E+VLM以及小鹏VLA2.0有相似之处[2]
Waymo自动驾驶最新探索:世界模型、长尾问题、最重要的东西
自动驾驶之心· 2025-10-11 07:32
Waymo自动驾驶技术框架 - 公司开发名为Waymo基础模型的大规模AI模型,该模型支持车辆感知环境、预测其他车辆行为、模拟场景并做出驾驶决策[5] - 模型功能类似于ChatGPT等大型语言模型,基于海量数据集训练学习模式并进行预测,能够整合多源传感器数据理解周围环境[5] - 车端部署较小模型,通过知识蒸馏技术从云端大型教师模型提炼而来,针对速度和效率优化,在每辆车上实时运行[5] - 感知和行为任务包括物体感知、行为预测和行动规划均可实时在车上执行[7] - 云端大模型可模拟真实驾驶环境,在部署前进行虚拟测试和验证决策[7] 世界模型技术特性 - 世界模型能够编码所有传感器数据(摄像头、雷达、激光雷达)并内置世界知识,解码所有驾驶相关任务[11] - 通过蒸馏缩小后放置在车端进行感知和控制,在云端进行虚拟仿真,实现强大泛化能力和快速适应不同平台[11] - 该模型基本解决自动驾驶日常问题,重点转向解决长尾问题[11] 长尾问题解决方案 天气挑战 - 雨后路况水坑及不常发生洪水需要算法判断水深和大量上下文信息,对精确度和召回率要求极高[12] - 采用视觉语言模型解法,但需要大量此类语料库支持[12] - 雪地驾驶对硬件要求高,传感器需加热和清洁功能应对堵塞,挑战包括行驶路线决策、车辙识别和摩擦力估计[14] 能见度与遮挡处理 - 极端低能见度情况下如夜间高速公路,需要多模态传感器协同检测[15] - 凤凰城沙尘暴环境中激光雷达可在尘暴中清晰看到行人[15] - 遮挡推理需解决视线不佳区域物体存在状态判断,挑战包括定义不明确、非确定性、缺乏真值基准等[18] - 解决方案包括估计不确定物体先验信息(通过驾驶数据统计和微弱传感器线索)以及准确估计自车速度先验[21] 复杂场景理解 - 施工场景需识别标志、推理驾驶几何形状,根据锥筒等物体调整路线[24] - 动态场景如交通警官手势需要实时响应动态信号[24] - 活跃事故现场涉及大量应急车辆和路况堵塞,需要整体场景理解而非单个物体识别[24] - 复杂场景需使用大语言模型理解场景内容并做出决策,公司表示仍在探索阶段[24] 自动驾驶核心要素 - 自动驾驶作为人工智能落地场景,核心要素为数据、算法、算力三大件[25] - 公司特别强调数据重要性,认为大量数据是基础,但数据筛选和整理更为关键[25] - 高效高质数据能确保模型专注于解决正确问题[25] - 数据挖矿中视频搜索能力对理解事件含义至关重要,如汽车碰撞、漂移等[30] 系统响应性能要求 - 快速实时决策被强调为安全性和流畅性关键,算法到执行链路用时越短越优[30] - 响应速度拆解为传感器输入响应、算法运算结论输出、底盘执行机构三个环节[30] - 当前快速响应决策主要受限于各家算法处理输出响应频率[31] - 摄像头帧率大于24Hz,算法输出帧率需达到10Hz或20Hz,底盘刹车ESP响应频率达上百Hz[36] 运营基础设施 - Depots运营停车场和改装工厂被公司视为L4运营最重要设施[33] - 车辆可自动进入停车场寻找充电空位,充完电拔枪后自动驶出运营[33] - 改装车间完成传感器安装后,车辆可自动驶出生产线,直接进入运输卡车或开始运营[33] 行业发展趋势 - 辅助驾驶与自动驾驶产业最终将交叉融合,因算法软件底层逻辑相同[4] - 中国辅助驾驶算法公司如Momenta、元戎、大疆与L4公司共同在欧洲和中东市场拓展[4] - 工程落地是行业较大壁垒,需要协同汽车开发与测试运营,优秀自动驾驶公司多挖角传统汽车工程师[34]