Workflow
Masking
icon
搜索文档
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]