文章核心观点 - AI当前缺乏理解、预测和推演世界的能力,为解决此问题,OpenAI、谷歌、微软等大公司及顶尖学者正集中研究“世界模型”,这被视为通往AGI的关键一步[4][6] - 世界模型旨在让AI从“只会回答问题”的语言机器,转变为能够“观察、推理、行动”的真正智能体,其核心特质包括表示世界、预测未来以及在世界中规划和行动[24][26] - 当前世界模型的研究呈现多条技术路线并行的局面,主要包括视频生成、3D空间生成、在虚拟世界训练智能体以及直接学习世界抽象结构等,这些路线共同指向让AI理解并能在世界中行动的终极目标[48][101][134] - 世界模型若发展成熟,预计将对机器人、自动驾驶、穿戴式设备、内容生成与游戏、AI Agent等多个关键行业产生颠覆性影响,从效率提升转向范式级改变[106][117][121] 一、什么是世界模型? - 概念起源与目标:世界模型的概念源于对人类心智模型的研究,旨在让机器像人类一样,在内部构建一个“世界如何运作”的模型,以进行预测和行动规划[8][9][10] - 理论发展:在AI和强化学习早期研究中,Dyna架构首次明确将“世界模型”确立为智能体的基础能力,其核心是智能体学习“采取动作后世界如何变化”[12] - 现代框架:2018年Google Brain的论文《World Models》提出了一个精炼化的理解框架:世界模型 = 观察世界(视觉模块V)+ 预测世界(记忆模块M)+ 在内部世界中学习行动(控制模块C)[17] - 核心特质:研究者普遍认为世界模型应具备三大特质:1) 表示世界(理解环境中的物体与关系);2) 预测未来(模拟事件变化);3) 在世界里规划和行动(基于预测采取行动)[24] 二、为什么要研究世界模型? - 与大语言模型的区别: - 任务与目标:大语言模型预测下一个词/Token,世界模型预测下一帧画面、下一步状态变化[29] - 数据与输出:大语言模型主要依赖静态文本数据,输出语言或图像;世界模型主要依赖动态时序数据(如视频),输出对未来状态的预测和可执行方案[29] - 学习方式:大语言模型通过语言间接理解世界,是世界模型的补充;世界模型通过交互和推演直接理解世界,并能进行预测和干预[28][30] - 大语言模型的瓶颈:部分顶尖学者认为大语言模型路线存在根本性瓶颈,例如Yann LeCun认为其只是在拟合语言统计相关性,对现实世界缺乏直接建模能力,若继续“堆量”难以实现真正的智能[33][37] - 研究驱动力:1) 大模型的原生能力遇到天花板;2) 多模态时代到来,海量视觉/动作数据、强大算力等条件成熟,使得训练“真正的世界模型”成为可能[44][46] 三、当前推进世界模型的主要路线 - 三层结构框架:可将世界模型领域拆解为三层:1) 底层思想与范式(抽象、预测、规划);2) 中间表现形式(世界如何被生成出来);3) 顶层目的层(智能体训练,让AI在世界中行动)[49][50][52] - 行业现状:目前产业界的尝试多集中在第二层“世界生成”,这是整个领域最活跃的部分,也是世界模型体系的入口和根基[54][56] 四、世界模型的表现形式:世界生成 - 视频生成路线: - 目标与代表:让AI生成一个能随时间连续演化、动起来的世界,代表模型包括OpenAI Sora、谷歌Genie等[56][59] - 优势:结果“看得见”,易于观察和评估;训练数据(互联网视频)易获得;对Scaling Law敏感,规模越大效果越好;能快速商业化落地[65][67] - 局限:对世界的理解是“隐式”的,藏在模型权重中,难以直接读取或迁移到机器人等决策系统[67][69] - 3D生成(空间智能)路线: - 目标与代表:不是“画”出世界,而是“建”出世界的三维结构,关注几何关系与可操作性,代表是李飞飞的World Labs及其模型Marble[57][70][72] - 优势:生成显式的3D结构信息,更利于物理模拟、规划和控制;在游戏、影视、室内设计等场景有商业转化优势[72][75] - 挑战:高质量3D训练数据稀缺;几何结构建模难度大;对算力需求远超2D模型[76] 五、世界模型的目的:智能体训练 - 基于虚拟世界训练路线:代表是Google SIMA,将AI放入游戏等虚拟生成的世界中训练,使其学会可迁移到真实世界的行动能力,最新版本SIMA 2展现出复杂任务理解、自主规划和强大泛化能力[84][86][87] 1. 直接学习世界抽象结构路线:代表是Yann LeCun提出的JEPA架构,其核心是不生成具体画面,而是将世界压缩成抽象的高维潜在表示,并在此空间中预测未来的关键结构,优势是计算成本低、更易捕捉因果关系、输出信息更利于机器人行动[90][92][97][98] 六、世界模型会改写哪些关键行业? - 机器人:世界模型让机器人拥有“世界的内部模型”,能进行预测和模拟,从而具备跨环境、跨任务的迁移和泛化能力,这将改变机器人行业过去每项新任务都需重新编程工程的范式[106][107][109] - 自动驾驶:世界模型能让系统学习“世界如何运转”,进行高质量仿真和多种决策路径推演,从而获得接近人类的预判能力,被认为是推动自动驾驶走向大规模商业化的核心技术之一[110][113] - 穿戴式设备:世界模型能让设备真正理解用户所处的3D环境并进行预测规划,使其从“信息终端”进化为随身的“世界理解引擎”和“数字伙伴”[114][116] - 内容生成、游戏与影视制作:世界模型能根据简单设定自动生成并演化整个虚拟世界,将内容创作从“制作”变为“生成”,彻底改变叙事和创作方式,例如游戏世界可以即时生成和进化[117][118][120] - AI Agent:世界模型为AI Agent提供了一个可训练、可试错、接近真实的“内在世界”,解决了其与真实环境交互训练昂贵且危险的核心问题,是决定AI Agent能否走向现实世界的关键[121][122][124]
“世界模型”到底是什么?
虎嗅APP·2026-03-08 11:04