Workflow
GWM Worlds
icon
搜索文档
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 12:34
公司发布通用世界模型GWM-1 - Runway公司发布了其首个通用世界模型GWM-1,该模型基于其最新的视频生成模型Gen-4.5构建 [1][8] - GWM-1采用了自回归架构,能够根据之前的记忆内容进行逐帧预测生成 [9] - 模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频 [10] 世界模型三大变体 - **GWM Worlds**:用于实时环境的模拟与探索,允许用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间 [12][13] - GWM Worlds能够根据用户提供的静态参考场景,实时生成一个包含几何图形、光照和物理效果的沉浸式、无限且可探索的空间 [13] - 该模型在智能体移动时能实时生成新场景,并保持长序列移动过程中的空间一致性,优于普遍只能生成有限长度帧序列的其他世界模型 [13] - 用户可通过文本提示改变环境的物理规则,例如约束地面骑行或解除重力实现空中导航,这有助于训练智能体在真实物理世界中的行动 [15][16] - GWM Worlds还可通过实时生成虚拟环境,为VR沉浸式体验提供支持 [17] - **GWM Avatars**:这是一个由音频驱动的交互式视频生成模型,能够模拟自然的人类表情和动作,适用于写实或风格化角色 [18] - 该模型能够渲染出逼真的面部表情、眼部动作、口型与语音同步以及自然的手势,并在长时间交互中保持稳定质量 [19] - 应用场景广泛,可作为个性化导师解释复杂概念,改变客户服务方式生成数字人,用于面试谈判等高压场景的模拟练习,以及让游戏NPC变得栩栩如生 [20] - GWM Avatars即将正式上线,并提供API供用户集成到自己的产品或服务中 [22] - **GWM Robotics**:这是一个更偏向于学习型模拟器的模型,通过学习机器人相关数据形成模拟能力,用于机器人操作 [23] - 该模型在机器人数据上训练,会根据机器人动作预测视频序列,主要承担两大任务:用于策略训练的合成数据增强,以及在模拟中进行策略评估 [24][25] - 通过生成合成训练数据,可以从新物体、任务指令和环境变化多个维度扩充现有机器人数据集,无需昂贵的真实世界数据收集,提升已训练策略的泛化能力和鲁棒性 [24][25] - 在GWM Robotics中可直接测试策略模型可行性,无需部署到实体机器人,这种方法比真实世界测试更快、重复性更高、安全性更显著,并能提供贴合实际的行为评估 [25][26] - 该模型能有效解决物理硬件成本高、损耗快、场景难复现等瓶颈问题,通过模拟环境替代实体硬件场景,让训练和评估更高效、更具性价比 [27] - 公司同时发布了GWM Robotics的Python软件开发工具包,该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中 [29] Gen-4.5模型升级 - Runway公司对其视频生成模型Gen-4.5进行了升级,新增支持原生音频生成和原生音频编辑 [30] - Gen-4.5现在可以生成逼真的对话、音效和背景音频,从而将创作内容扩充到更广的故事类型 [31] - 用户可以根据特定需求对现有音频进行任意方式的调整 [32] - 升级引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换 [33]
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 10:30
文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - **2024年初的强化学习语境**:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - **工程化能力拆解**:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - **概念外推与通用化**:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - **概念边界模糊化**:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - **技术路线分化(2024年2月)**: - **OpenAI的Sora路线**:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - **Meta(LeCun)的V-JEPA路线**:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - **核心争议转移**:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - **对现有路线的批评**:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - **地位提升至与LLM同级**:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - **与LLM及VLA的差异**: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - **概念同名但内核分裂**:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - **融资热潮放大歧义**:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - **技术路线三分法**:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - **布局动机各异**:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了
机器之心· 2025-12-12 12:31
文章核心观点 - AI视频生成公司Runway发布了一系列重大更新,标志着行业正从单纯的“视频生成”迈向“世界模拟”的新阶段 [34] - 此次更新不仅发布了旗舰视频生成模型Gen-4.5,更首次对外展示了其在通用世界模型上的战略布局,旨在让AI理解并模拟物理世界的运行规律 [3][35] - 英伟达CEO黄仁勋专门发来祝贺视频,暗示了算力与前沿AI算法发展的深度绑定 [4][21][35] 产品更新:Gen-4.5 旗舰视频生成模型 - **核心能力提升**:Gen-4.5是Runway最新的旗舰视频生成模型,在画质惊人的基础上,引入了原生音频生成与编辑功能 [6][13] - **精确遵循提示**:模型实现了极高的物理精度和视觉精确度,物体运动符合逼真的重量、动量和力量,液体流动动力学正确,发丝和材料纹理等精细细节在运动和时间中保持连贯 [9] - **风格控制与一致性**:能够处理从照片级真实感、电影感到风格化动画的多种美学风格,同时保持连贯的视觉语言 [11] - **新增编辑功能**:支持多镜头编辑,用户可以对初始场景进行更改,并将该更改应用到整个视频中 [14] - **访问计划**:公司正在逐步开放对Gen-4.5的访问权限,将在未来几天内向所有人开放 [16] 战略布局:通用世界模型GWM-1及其变体 - **模型定位**:GWM-1是Runway的首个通用世界模型,被视为理解物理世界运行规律的基石,基于Gen-4.5构建但采用自回归的逐帧预测方式 [6][18][19] - **战略意义**:公司认为世界模型处于AI进步的前沿,是解决机器人技术、疾病、科学发现等棘手问题的关键,为通用模拟提供了最清晰的路径 [21] - **当前变体**:目前GWM-1有三种单独的后训练变体,公司正致力于将它们统一到一个单一的基础世界模型之下 [21] GWM Worlds:实时环境模拟器 - **产品定义**:GWM Worlds是一个基于GWM-1的环境模拟器,允许用户在无限的数字世界中实时探索 [6][23] - **核心特性**:关键在于保持空间连贯性,在长时间的移动序列中,环境能保持一致性并对用户的指令做出准确响应 [23][24] - **应用场景**:可用于交互式体验、游戏、可探索世界等沉浸式环境,也可作为训练AI系统在现实世界中导航和行动的沙盒模拟器 [24] GWM Robotics:机器人训练模拟器 - **产品定义**:GWM Robotics是一个打破物理瓶颈,为机器人训练提供合成数据的学习型模拟器 [6] - **核心功能**:支持合成数据增强策略训练,利用世界模型生成合成数据以提升机器人策略的泛化能力;支持策略模拟评估,允许在模型中直接测试策略模型,方式更快、更安全 [27][28] - **配套工具**:公司发布了GWM-1 Robotics SDK,这是一款面向其机器人世界模型API的Python SDK,支持多视角视频生成和长上下文序列 [27] GWM Avatars:音频驱动交互式视频模型 - **产品定义**:GWM Avatars是一个音频驱动的交互式视频生成模型,可让数字人拥有自然的灵魂 [6][29] - **核心表现**:模型能针对任意角色模拟自然的人类动作和表情,包括逼真的面部表情、眼球运动、口型同步和手势,在长时间对话中质量不下降 [30] - **应用潜力**:应用场景广泛,包括实时辅导与教育、客户支持与服务、培训模拟以及互动娱乐与游戏 [31][32] - **发布计划**:该模型即将登陆Runway网页产品和API,以便用户集成到自己的产品和服务中 [31]