通用实时世界模型PixVerse R1发布

公司产品发布 - 爱诗科技于1月14日在北京发布了全球首个支持1080P分辨率的通用实时世界模型PixVerse R1 [1] - 该模型将视频生成延迟从“秒级”降至“即时”，实现了“所想即所见”的实时交互体验 [1] - 该模型推动AIGC领域的视频生成技术迈入“实时交互”新阶段 [1] 核心技术突破 - 模型通过三大核心技术创新系统性解决高分辨率视频实时生成难题 [1] - 首先是Omni原生多模态基础模型，采用统一Transformer架构，将文本、图像、音频与视频融合为单一生成序列，实现端到端跨模态理解与生成 [1] - 该模型在原生分辨率下训练，保障了生成内容的一致性与真实感 [1] - 其次是自回归流式生成机制，通过记忆增强注意力模块攻克长视频中角色、物体状态与环境逻辑的长期一致性难题 [1] - 该机制可生成任意长度视频，并允许用户在生成过程中随时插入新指令，实现动态调整叙事的“流式交互” [1] - 最为关键的是瞬时响应引擎，通过时间轨迹折叠、引导校正等创新方法，将传统扩散模型所需的50多次采样步数压缩至1到4步 [2] - 该引擎使计算效率提升数百倍，让动态画面达到人眼可感知的“即时”响应水平 [2] 产品意义与公司观点 - 该技术为高并发服务与未来终端部署奠定了基础 [2] - 公司创始人兼首席执行官表示，PixVerse R1首次让AI能够基于用户意图，实时生成一个持续演化且物理合理的世界 [2] - 该产品开创了AIGC“正在发生的现在”实时生成新纪元 [2] 应用前景 - 该应用未来有望广泛覆盖游戏、影视、互动娱乐及数字创意等多个领域 [2] - 在游戏领域，该技术可实现非玩家角色与环境的实时响应 [2] - 在互动叙事中，观众可直接用语音塑造剧情 [2] - 该技术为新一代人工智能内容生成领域的创新发展提供了有力支撑 [2]