世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经·2025-12-02 19:22