世界模型，是否正在逼近自己的「ChatGPT时刻」？

世界模型的定义与愿景 - 世界模型本质上是预测模型，给定当前状态及动作序列，预测下一个状态 [4] - 世界模型可理解为AI对环境状态的预测和判断，从简单游戏世界逐渐走向高质量3A大作级的虚拟环境模拟 [4] - 终极目标是将世界1：1建模，可能到原子级别，但实际只需依照不同任务目的进行建模 [4] 世界模型的应用前景 - 为自动驾驶、具身智能等多模态任务提供更多数据 [4] - 建立模型与世界的结合以替代传统模拟器 [4] - 最终成为端到端系统的一部分 [4] 数据瓶颈与构建路径 - 自动驾驶公司积累上亿公里数据，但99%都是晴天道路数据，真正危险场景数据稀缺 [5] - 构建世界模型时采集数据的成本在千万级，非研究团队能直接承担 [5] - 可行路径为：先用常见数据训练垂类模型，再生成更多极端案例数据，通过迭代增强模型 [5] - 采用“生成数据 + 真实数据”的混合模式，通过模型、产品、数据的循环推动发展 [5] 技术路径与架构分歧 - 技术路径分歧明显：有团队偏向融入物理信息以保持一致性（如重力），而面向影视、游戏等创意领域则视频生成可能更合适，甚至不需要严格遵守物理规律 [7] - 模型最终形态可能是纯生成的，但随着生成能力增强，对物理规律的掌握会越来越好 [7] - 在架构上，扩散模型从随机噪声中逐步还原内容，更接近物理世界生成方式及人脑解码机制，被认为更适合世界模型 [8] - 观察到技术融合趋势，如OpenAI正探索将不同架构（如token化的扩散）统一 [9] - 扩散模型擅长捕捉现实世界真实分布，但需自回归模型补足时序与逻辑连贯性，已有扩散和自回归结合的工作 [9] 商业化挑战与发展时间表 - 世界模型存在ToB和ToC两方面的商业化挑战：ToB端需定义视频生成数据对用户的价值，ToC端需提升token价值 [10] - 业内人士估计世界模型的“ChatGPT时刻”可能需要三年左右出现 [10] - 目前最困难的是缺乏高质量长视频数据，视频生成时长大多在5到10秒，大厂演示也只能做到一分钟量级 [10] - 世界模型可能是现在及未来十年新的爆发方向，随着语言模型发展成熟，需开拓新研究方向推动AI进步 [10] 未来技术演进方向 - 未来世界模型可能更需要训练强化学习Agent，以及如何将VLA（视觉-语言-动作）进化为WLA（世界-语言-动作） [11]