Workflow
世界引擎
icon
搜索文档
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-14 00:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]