多重宇宙操作系统
搜索文档
AI 视频的下一步:不是剪辑,是模拟
36氪· 2025-11-06 10:26
技术定位与核心转变 - 公司核心定位从传统视频生成工具转向“世界模拟器”,强调对物理世界运行规律和因果关系的模拟[1] - 技术路径发生根本性转变,不再需要邀请码,实现权限开放[1] - 产品从图像增强器演变为世界模拟器的雏形,重构AI视频生成方式[3][5] 核心技术突破 - 采用Diffusion Transformer(Dit)技术,从噪声中还原完整视频,解决时间轴上断开的问题[3] - 引入“时空块”概念,将视频切分为包含位置、画面和时间信息的小立方体,作为视觉生成模型的最小单位[4] - 通过注意力机制实现全局共享记忆,使模型能够保留前几秒钟信息,实现物体持久性[4] - 模型在每个时间点拥有整个画面的全局上下文,保持真实世界的延续性[5] 智能体涌现特征 - 模型开始表现出智能体特征,具备基本物理理解力,能够判断动作的合理性和逻辑性[7][8] - 能够模拟因果关系,例如篮球投掷后未命中会合理反弹,而非强行让球进框[9] - 智能体特征随模型规模扩展自然涌现,达到临界点时出现场景理解能力[10][11] - 评判标准转变为“错的合理”,要求符合世界内在逻辑而非仅视觉正确[11] 产品功能与社交驱动 - Cameo功能允许用户将自己和朋友融入生成视频,构建社交驱动的生成式网络[1][13] - 用户获得邀请码后第一天创作参与度达100%,第二天70%用户持续创作,30%发布作品[15] - 功能激发爆发式再创作,例如内部团队人像被二次创作数千次[19] - 平台从内容消费转向人际参与,形成以生成为行动、出现为关系的社交网络飞轮[16][20] 未来战略方向 - 公司目标构建微型现实,模拟与真实世界并行的空间,使用户能够参与其中[21] - 通过Cameo逐步增加用户信息带宽,从外表模拟扩展到行为习惯和关系理解[21] - 计划发展数字克隆技术,使数字版本能够独立存在、互动并完成任务[21] - 定位为下一代人类数字行为空间入口,涵盖任务交互、知识工作和娱乐等多重功能[25] 行业影响与市场潜力 - 技术突破打开新现实原型空间,而非传统视频工具市场[28] - 具备构建有逻辑、有角色、有因果的模拟世界能力的企业将主导未来计算平台[25] - AI从讲故事工具进阶为理解世界运行方式的技术,模糊模拟与现实的边界[26][31] - 创作门槛极低,仅需几句描述或一张自拍即可生成参与感强的内容[31]