Workflow
可验证安全的人工智能
icon
搜索文档
Waymo刚刚的基座模型分享:快慢双系统端到端 & 世界模型仿真
自动驾驶之心· 2025-12-10 09:28
Waymo的整体人工智能战略与核心架构 - 公司正通过将“可验证安全的人工智能”置于核心优先级来攻克自动驾驶挑战,安全是从底层设计模型与人工智能生态系统的核心准则[2] - 公司打造了一套极其先进的人工智能系统,已实现大规模安全落地于物理世界,完全自动驾驶里程已远超1亿英里[2] - 在运营区域,与人类驾驶员相比,严重事故发生率降低了十倍以上[2] - 公司的人工智能方案以Waymo基础模型为核心,支撑起统一的可验证安全人工智能生态系统,实现加速、持续的学习与迭代优化[2] Waymo基础模型:核心支柱与架构 - Waymo基础模型是一款多功能、顶尖的“世界模型”,为整个人工智能生态系统提供动力[5] - 其创新架构相比纯粹的端到端方案或模块化方案具备显著优势,充分利用习得嵌入的强大表达能力,并在训练过程中支持完整的端到端信号反向传播[8] - 模型采用“快速反应与深度思考”(系统1与系统2)的架构,包含两个不同的模型组件[10] - 两个编码器的输出接入世界解码器,该解码器利用输入数据预测其他道路使用者的行为、生成高清地图、规划车辆行驶轨迹,并为轨迹验证提供信号[11] 人工智能生态系统:三大组件与知识蒸馏 - 基于整体方案,Waymo基础模型为“驾驶员”、仿真器和评估器提供动力[12] - 公司首先将基础模型适配这三大任务,训练出大型、高质量的教师模型,然后通过安全的模型蒸馏技术,将其转化为更小的学生模型,以在保留卓越性能的同时得到更紧凑、高效的版本[12] - “驾驶员”教师模型经过训练能够生成安全、舒适且合规的动作序列,通过蒸馏技术将其世界理解能力和推理能力迁移至学生模型,优化后用于车载实时部署[14] - 仿真器教师模型能够创建高保真、多模态的动态虚拟世界,学生模型则是这些大型模型的计算高效版本,专为满足大规模仿真任务而设计[14] - 评估器教师模型能够分析驾驶行为并生成高质量的反馈信号,学生模型会分析驾驶日志,识别场景并对驾驶质量提供细致反馈[16] 关键模型组件:感知与语义理解 - 用于快速反应的传感器融合编码器作为基础模型的感知组件,能实时融合摄像头、激光雷达和雷达的输入数据,生成目标物体、语义信息及丰富的嵌入特征[15] - 用于复杂语义推理的驾驶视觉语言模型基于Gemini大模型训练而成,借助其海量世界知识,以更好地理解道路上罕见、新颖且复杂的语义场景[15] 构建持续优化的飞轮效应 - 公司内部学习循环由仿真器和评估器提供动力,利用强化学习在安全可控的仿真环境中对“驾驶员”进行大规模训练[17] - 外部学习循环基于真实的完全自动驾驶数据,评估器从海量自动驾驶经验中自动标记次优驾驶行为,生成改进后的替代行为作为训练数据,经严格测试和安全框架确认后部署到真实道路[17] - 公司完全自动驾驶里程已远超人工驾驶数据量,庞大的真实世界完全自动驾驶经验是无可替代的,将这些数据融入飞轮体系使系统能从自身海量经验中学习[19] 行业技术趋势与定位 - 基本上可以断定Waymo在跟随国内的快慢双系统端到端方案,和理想的E2E+VLM以及小鹏VLA2.0有相似之处[2]