Workflow
Self - Regressive Architecture
icon
搜索文档
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 12:34
公司发布通用世界模型GWM-1 - Runway公司发布了其首个通用世界模型GWM-1,该模型基于其最新的视频生成模型Gen-4.5构建 [1][8] - GWM-1采用了自回归架构,能够根据之前的记忆内容进行逐帧预测生成 [9] - 模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频 [10] 世界模型三大变体 - **GWM Worlds**:用于实时环境的模拟与探索,允许用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间 [12][13] - GWM Worlds能够根据用户提供的静态参考场景,实时生成一个包含几何图形、光照和物理效果的沉浸式、无限且可探索的空间 [13] - 该模型在智能体移动时能实时生成新场景,并保持长序列移动过程中的空间一致性,优于普遍只能生成有限长度帧序列的其他世界模型 [13] - 用户可通过文本提示改变环境的物理规则,例如约束地面骑行或解除重力实现空中导航,这有助于训练智能体在真实物理世界中的行动 [15][16] - GWM Worlds还可通过实时生成虚拟环境,为VR沉浸式体验提供支持 [17] - **GWM Avatars**:这是一个由音频驱动的交互式视频生成模型,能够模拟自然的人类表情和动作,适用于写实或风格化角色 [18] - 该模型能够渲染出逼真的面部表情、眼部动作、口型与语音同步以及自然的手势,并在长时间交互中保持稳定质量 [19] - 应用场景广泛,可作为个性化导师解释复杂概念,改变客户服务方式生成数字人,用于面试谈判等高压场景的模拟练习,以及让游戏NPC变得栩栩如生 [20] - GWM Avatars即将正式上线,并提供API供用户集成到自己的产品或服务中 [22] - **GWM Robotics**:这是一个更偏向于学习型模拟器的模型,通过学习机器人相关数据形成模拟能力,用于机器人操作 [23] - 该模型在机器人数据上训练,会根据机器人动作预测视频序列,主要承担两大任务:用于策略训练的合成数据增强,以及在模拟中进行策略评估 [24][25] - 通过生成合成训练数据,可以从新物体、任务指令和环境变化多个维度扩充现有机器人数据集,无需昂贵的真实世界数据收集,提升已训练策略的泛化能力和鲁棒性 [24][25] - 在GWM Robotics中可直接测试策略模型可行性,无需部署到实体机器人,这种方法比真实世界测试更快、重复性更高、安全性更显著,并能提供贴合实际的行为评估 [25][26] - 该模型能有效解决物理硬件成本高、损耗快、场景难复现等瓶颈问题,通过模拟环境替代实体硬件场景,让训练和评估更高效、更具性价比 [27] - 公司同时发布了GWM Robotics的Python软件开发工具包,该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中 [29] Gen-4.5模型升级 - Runway公司对其视频生成模型Gen-4.5进行了升级,新增支持原生音频生成和原生音频编辑 [30] - Gen-4.5现在可以生成逼真的对话、音效和背景音频,从而将创作内容扩充到更广的故事类型 [31] - 用户可以根据特定需求对现有音频进行任意方式的调整 [32] - 升级引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换 [33]