AI视频生成行业技术演进 - AI视频生成领域的竞争焦点正从单纯比拼画质,进化到比拼对物理世界的理解[1] - AI视频生成独角兽Runway于12月11日正式发布其首款通用世界模型GWM-1,进入由谷歌、英伟达等巨头领先的“世界模拟”战场[1] Runway通用世界模型GWM-1核心突破 - GWM-1被设计为能够理解物理规律、几何结构及环境动态的模拟系统,其核心突破在于“连贯性”与“交互性”[1] - 该模型基于对物理规律和环境动态的理解,能通过逐帧预测来模拟世界随时间演变的过程,并支持长达数分钟的连贯实时交互[1] - “世界模型”旨在让AI在内部构建对现实世界运行机制的模拟,使其能够在无需遍历现实所有场景的情况下,具备推理、规划和行动的能力[3] - 构建世界模型首先需要构建卓越的视频模型,教模型直接预测像素是实现通用模拟的最佳路径[3] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列,均建立在Runway最新的Gen-4.5基座模型之上[3] - 公司的最终愿景是将不同的领域和动作空间统一到一个单一的基础世界模型中[3] GWM-Worlds:可交互的数字环境 - GWM-Worlds是建立在Gen-4.5基座模型之上,采用逐帧预测方式的自回归模型[4] - 用户可在任何时刻根据应用场景进行干预,模型会模拟接下来发生的事情[4] - 该模型提供了一个用于探索数字环境的界面,用户可通过提示词或参考图像设定场景,模型将以24fps的帧率和720p的分辨率生成环境[4] - 用户可以实时改变镜头视角、环境条件或物体状态,模型能够理解几何与光影,确保生成的画面在长序列运动中保持连贯性[4] - 除了游戏设计预览和VR环境生成外,GWM-Worlds更深远的意义在于为AI Agent提供训练场,教导它们如何在物理世界中导航和行动[4] GWM-Robotics:进军工业与具身智能 - GWM-Robotics的推出展示了Runway进军工业与具身智能领域的野心[6] - 该模型旨在通过生成高质量的“合成数据”,模拟各种环境变数,以解决机器人研发中获取“长尾场景”真实数据成本极高的痛点[6] - 这能帮助机器人在虚拟空间中进行策略评估,大幅降低训练成本,并在投入真实世界前预判其违规风险[6] - 公司正通过SDK向部分企业开放GWM-Robotics,并与多家机器人公司保持积极接触,试图在SaaS订阅收入之外开辟面向B端工业客户的新业务[6] GWM-Avatars:人机交互终端 - GWM-Avatars瞄准人机交互,是一个将视频生成与语音结合的统一模型[8] - Runway宣称其生成的数字人能进行长时间连续对话且无画质损耗[8] - 若该技术效果属实且能规模化落地,或将对客户服务及在线教育行业产生颠覆性影响[8] 基座模型升级与算力支撑 - Runway同期发布了Gen-4.5模型更新,补齐了原生音频和多镜头编辑的短板[10] - 新版本支持生成长达一分钟的视频,并能保持角色一致性、生成原生对话和背景音效,继续从“C端玩具”迈向“B端生产力工具”[10] - 为支撑从创意生成迈向世界模拟的庞大算力需求,Runway宣布与云服务商CoreWeave达成协议[10] - 未来将利用CoreWeave云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理[10] 公司战略与行业竞争格局 - Runway的战略版图正从影视创意工具向机器人模拟器等领域极速扩张[11] - 在世界模型这一新赛道上,公司已不再拥有视频生成初期的先发优势[11] - 面对谷歌、英伟达等拥有深厚底层资源和科研积累的巨头,公司需要证明自己不仅是一家影视行业的“特效供应商”,而是有能力成为物理世界的“AI架构师”[11] - 这将是评估其估值能否迈向下一阶段的关键[11]
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
华尔街见闻·2025-12-13 18:36