行业核心趋势:世界模型成为智能驾驶新焦点 - 世界模型是继端到端、VLA后,智驾领域最时髦的技术名词,多家公司推出相关概念,如小鹏的“世界基座模型”、蔚来的“端到端世界模型”、华为的“世界行为模型”,地平线、理想、元戎启行、Momenta也在进行相关研发 [2] - 在广义语境中,世界模型本质是在虚拟世界再造真实世界,使AI能理解现实世界的物理规律、因果关系和环境动态,被科学家和科技公司视为实现“物理世界AI”的关键拼图 [3] - 当前智驾行业谈论的“世界模型”在技术路径上差异不大,主要是对传统仿真工具进行范式升级,旨在还原度、颗粒度、场景丰富度和自由度更高的虚拟世界中,解决端到端模型的测试与验证问题,以训练出更拟人化的智驾模型 [4] 技术驱动因素:端到端普及暴露传统仿真短板 - 过去两三年,头部智驾方案从规则栈转向AI驱动的端到端模型,感知、预测、规划被整合进一张网络,配合更大模型和更高算力,旨在使驾驶行为更拟人 [7] - 端到端模型的“黑盒”特性导致新版本OTA可能表现不稳定甚至“退步”,核心问题在于AI驱动使得模型评估和回归验证变得困难,研发人员难以定位错误原因 [8][9] - 端到端的普及凸显了传统仿真器的短板,传统仿真器在规则时代主要用于问题重现和增加特定场景数据,但无法支撑端到端模型所需的大规模、系统性闭环验证 [10] 核心应用定位:世界模型作为云端仿真与验证系统 - 截至目前,智驾行业的世界模型仅应用于云端,尚未部署到车端,其主要作用是充当仿真器,用于测试和验证端到端模型 [6] - 头部玩家如理想和小鹏均将世界模型作为仿真器应用,理想为使其VLA在仿真环境中进行强化学习,提出了包含自车和他车轨迹的驾驶世界模型;小鹏也在采用世界模型进行仿真测试以评测新算法 [10] - 世界模型在工程上被定位为端到端时代的“验证与反证系统”,用于在云端重放、改写、扩增现实驾驶场景,检验车端大模型输出的稳定性和可复现性,并形成可追踪的错误证据链 [14] - 世界模型的核心能力包括对物理世界的数字化建模与抽象,以及基于此对物理世界进行合理的想象和预测,例如通过给定图片预测未来变化 [14] 技术路径与挑战:生成质量、幻觉与算法瓶颈 - 世界模型的好坏取决于其能否在云端生成足够真实和多样性的数据,仅回放真实数据并非真正的世界模型,训练数据的质量会显著影响生成结果的质量 [15] - 世界模型底层是生成式模型,天生存在“幻觉”风险,目前最难的是保证生成内容符合真实世界的物理规律和行为逻辑,否则将导致车端模型学到错误知识,性能变差 [16] - 行业普遍处于早期阶段,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体在时空一致性和多视角一致性上存在较大问题 [16] - 前理想汽车辅助驾驶负责人指出,世界模型的瓶颈首先在于算法层面未有突破,图像模型的自监督训练尚未找到像语言模型那样顺畅的范式,图像信息密度低,对驾驶决策有用的信息占比极低,模型需从海量噪声中提取极少有效信号 [17][18] - 由于基础技术尚未明确突破,车企对世界模型的投入更多是研究性质,目前世界模型主要停留在用于训练与验证的第一阶段,而非能支撑决策规划的第二阶段 [18] 效率价值与未来展望 - 基于世界模型,车企在云端仿真时可以无限制地生成所需场景,根据指令生成视频作为训练数据,效率远高于真实数据采集与训练,能带来模型迭代速度的断代式领先 [16] - 特斯拉采用了“世界模拟器”的概念,其基于海量数据集训练,根据当前状态与动作生成未来状态,并与车端端到端模型形成闭环评估,其方法更倾向于用神经网络“拟合”世界,渲染通过计算生成,以增强模型泛化能力 [11][14] - 业内观点认为,如果世界模型足够成熟且算力可支撑,未来有望部署到车端,实现通过预测世界变化并进行有利决策,从而解决自动驾驶和机器人相关问题,但目前尚无公司在车端应用世界模型 [18][19]
世界模型,是自动驾驶的终极答案吗?
36氪·2026-02-05 12:30