Workflow
视频世界模型
icon
搜索文档
谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角
机器之心· 2026-03-07 12:20
机器之心编辑部 电子游戏一直是 AI 领域发展的极大推动力之一。 游戏本身就构建了一个相对完整的世界,并且具有相当易于理解的世界规则。不仅可以训练人工智能对物理世界的理解,训练智能体的交互,更是许多世界模型 的构建基础。 研究与视觉相关的 AI 永远绕不开的电子游戏两座大山,其一是代表真实世界风格的《GTA》 ,另一个则是代表虚拟自由风格的《我的世界》。 我们关注到, 谢 赛宁 团队 最近在探索世界模型的全新研究方向,把实验目标投向了《我的世界》。 Solaris 模型样本。每一行显示一个生成的视频:左右两侧是模型为每个玩家生成的第一人称视图,中间是模型的 第三人称真实视图(未提供给模型)。 视频画面中清楚地展示了两个游戏角色的行为与第一视角的游玩录像。但如果告诉你,这两个第一视角画面均为视频世界模型生成的,你能找到破绽吗? 这就是 谢赛宁团 队的最新视 频世界模型 Solaris,首个多人视频世界模型,能够同时生成多个玩家之间保持一致的第一视角。 研究团队发现,目前的视频世界模型仅能处理单人视角,这并不能反映现实世界的真实运作方式,希望能够能够实现多人同步观察一个统一世界。于是,研究团 队把视角投向了电子游 ...
VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物
机器之心· 2026-01-18 12:05
VerseCrafter模型的技术突破 - 复旦大学、腾讯PCG ARC Lab等机构的研究者提出了VerseCrafter,这是一个通过显式4D几何控制实现的动态逼真视频世界模型 [2] - 该模型能像“导演”一样精准控制相机运镜,同时指挥场景中多个物体的3D运动轨迹,为视频生成引入了物理世界维度 [2] - 其核心理念在于用一个统一的4D几何世界状态驱动视频生成,利用静态背景点云和每个物体的3D高斯轨迹,实现对相机和物体运动的解耦与协同控制 [5] 现有技术困境与解决方案 - 现有视频模型面临核心困境:视频在2D平面播放,但真实世界是4D的;现有方法难以在统一框架下同时实现精准的相机控制和多物体运动控制 [2] - VerseCrafter创新性地提出了一种基于3D高斯的表示方法,提供了一种软性、灵活且类别无关的表示方式,能以概率分布形式描述物体在3D空间中的占据情况 [9][11] - 模型采用冻结的Wan2.1-T2V-14B作为视频先验主干网络,并设计了一个轻量级的GeoAdapter,以极小的代价引入精确的4D控制 [12][13] 数据集构建 - 为训练4D世界模型,研究团队构建了VerseControl4D数据集,以解决缺乏大量带有精确4D标注的真实世界视频数据的问题 [15] - 该数据集使用静态背景点云表示环境几何,使用每物体3D高斯轨迹编码物体运动 [16] - 数据集构建结合了Qwen2.5-VL-72B、Grounded-SAM2、MegaSaM等先进工具进行自动化标注,包含35,000个训练视频片段,涵盖了丰富的动态和静态场景 [24] 模型性能与实验结果 - 实验表明,VerseCrafter在各项指标上均超越了现有的SOTA方法,如Perception-as-Control、Yume、Uni3C等 [21] - 在动态场景联合控制对比中,VerseCrafter能够精确地让物体沿着预设的3D高斯轨迹移动,同时完美执行相机运镜,且背景保持几何一致 [22][26] - 在静态场景运镜对比中,VerseCrafter的表现优于专门的ViewCrafter和Voyager等模型,在大幅度运镜下依然保持了建筑结构的笔直和纹理的清晰 [27][28] - 得益于统一的4D世界坐标系,VerseCrafter还支持多玩家视角生成,对于同一个动态事件,可以从完全不同的两个视角分别生成高度一致的视频 [29][30] 行业意义与应用前景 - VerseCrafter的出现标志着视频生成向可控4D世界模拟迈出了重要一步 [31] - 通过将显式的3D几何先验与强大的2D视频生成模型相结合,它不仅解决了复杂场景下的控制难题,也为游戏制作、电影预演和具身智能模拟提供了新的可能性 [31]
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩
机器之心· 2025-12-31 17:31
视频世界模型的技术挑战与现状 - 当前AI生成视频的核心挑战在于如何让生成的视频不仅视觉逼真,更能长时间遵循物理世界的规律,实现结构、行为与物理规律的一致性[2] - 随着生成时长从几秒扩展到几分钟,现有模型普遍面临误差累积与语义漂移问题,导致长视频出现画面退化与逻辑崩坏[2] - 一个理想的视频世界模型应具备三项核心能力:全面可控性、长期视觉保真度以及长程上下文一致性[12] LongVie 2模型框架与核心创新 - 该模型由上海人工智能实验室联合多所高校提出,是一个能够生成长达5分钟高保真、可控视频的世界模型框架[2] - 其核心创新在于设计了一套三阶段递进式训练策略,系统性解决长视频生成的退化问题[8] - 三阶段训练包括:1) 稠密与稀疏多模态控制;2) 退化感知训练;3) 历史上下文建模,旨在从控制、稳定性到时间一致性层层强化模型能力[9][13][14] 三阶段训练策略详解 - **阶段一:多模态控制**:通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束,从源头提升长程可控性[9] - **阶段二:退化感知训练**:在训练阶段主动“制造困难”,通过VAE多次编解码模拟重建误差,以及加噪与去噪构造退化图像,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度[13][17] - **阶段三:历史上下文建模**:在生成过程中显式引入历史片段信息,并通过针对性损失函数约束相邻片段衔接,使跨片段过渡自然顺畅,有效缓解语义断裂与逻辑跳变[14] 模型效果与性能评估 - 与Go-With-The-Flow和Diffusion As Shader等方法对比,LongVie 2在可控性方面表现显著优于现有方法[21] - 消融实验验证了三阶段训练的有效性,完整模型(Base Model + Control Learning + Degradation Adaptation + History Context)在各项指标上达到最佳,例如美学质量(A.Q.)从49.72%提升至58.47%,结构控制(S.C.)从83.56%提升至91.05%,时间一致性指标(D.D.)从15.15%大幅提升至82.59%[26] - 在提出的LongVGenBench基准上,LongVie 2在多项定量指标上达到SOTA水平,并获得最高用户偏好度,其用户主观测评得分(如视觉质量VO为4.40)显著高于其他对比方法[29] 行业评测基准的建立 - 研究提出了LongVGenBench,这是首个专为可控超长视频生成设计的基准数据集,旨在推动该方向的系统研究与公平评测[27] - 该基准包含100个时长超过1分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景[28]
英伟达主管!具身智能机器人年度总结
具身智能之心· 2025-12-29 20:50
文章核心观点 - 英伟达机器人主管Jim Fan认为,机器人领域在2025年仍处于缺乏统一标准、硬件可靠性制约软件迭代的“蛮荒时代”,当前主流的VLA技术范式也存在结构性问题 [1][11][13] 行业现状与核心挑战 - 硬件进展快于软件,前沿硬件(如Optimus、e-Atlas、Figure、Neo、G1)的潜力未被AI完全发挥,机器人“身体”能力强于“大脑”指令 [11][14][15] - 硬件可靠性严重不足,过热、马达损坏、固件问题频发,需要整个运维团队维护,错误不可逆,这限制了软件的快速迭代速度 [16][17][18][30] - 领域缺乏统一、可复现的标准评测体系,基准测试是一场“史诗级灾难”,在硬件平台、任务定义、评分标准等方面均无共识,导致人人都可通过定义新基准宣称达到SOTA [8][9][20][21] 主流技术范式(VLA)的局限与未来方向 - VLA(视觉-语言-动作模型)是2025年机器人领域最热的词汇,当年发表了超200篇相关工作,它赋予机器人处理多模态信息的大脑,具备任务泛化能力 [44][45][47] - 当前基于VLM(视觉-语言模型)的VLA范式存在根本性结构问题:VLM是为视觉问答优化,其大多数参数服务于语言和知识,而非物理世界;其视觉编码器会丢弃对灵巧操作至关重要的低层细节 [11][24][26][27][49] - VLA的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制不对齐 [26][51] - 未来方向包括:转向以**视频世界模型**作为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律 [28][53];发展整合物理驱动世界模型的VLA,统一语义指令与物理精度 [50];采用“形态无关表征”解耦规划与控制,实现零样本跨具身迁移,而非盲目堆叠参数 [51] 硬件与数据进展 - 2025年涌现多款新硬件本体,如Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2,它们在运动能力上表现亮眼,大型机器人已能像小型机器人一样灵活 [33][35] - 核心工程挑战在于如何在维持高性能的同时,提升硬件的抗摔性、电池发热、长时间运行稳定性等可靠性问题 [35] - 数据在具身智能领域的重要性已不言自明,数据规模存在Scaling Law,例如Generalist项目证明数据越大、参数越高,模型表现越好 [36][37][43] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [38][40][42] - 具体数据路线(人类中心采集、真机遥操、仿真、互联网数据等)及模态配比仍是未收敛的开放问题 [43] 数据与评测的未来趋势 - 未来数据范式可能转向 **“模拟优先、失败为中心”** ,依赖高保真模拟环境生成多样化轨迹,并充分利用失败轨迹学习,以提高数据利用效率和可持续性 [54][55][56] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,以反映鲁棒性、效率和安全裕度 [56] 市场前景与产业动态 - 机器人产业市场前景广阔,据摩根士丹利研究,其规模有望从当前的910亿美元激增至2050年的25万亿美元 [57] - 硅谷科技巨头(除微软/Anthropic外)均已加码机器人软/硬件布局 [59]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 12:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]