AI视频如何告别“抽卡”游戏
华尔街见闻·2026-01-14 15:43

行业现状与商业模式 - 大语言模型普遍面临商业模式“撞墙”的焦虑期,而AI视频模型已率先跑通了现金流 [1] - 2025年第二季度,快手旗下AI视频生成应用“可灵”营收超2.5亿元人民币,MiniMax的“海螺”2025年前三季度创收0.17亿美元(合人民币1.2亿元),占总收入比重高达32.6% [1][7] - 基于可灵的超预期商业化表现,快手上调了2025年全年收入预期并追加算力投入,其股价最近6个月累计涨幅已超过20% [7] - MiniMax于2026年1月9日上市,当天收盘报345港元/股,较发行价上涨109%,市值突破千亿港元 [8] - 尽管行业正驶向商业化,但“不可控性”使得大多数产品停留在“抽卡游戏”阶段,难以满足B端交付中对物理逻辑和细节连贯的严苛标准 [1] 主要参与者与市场策略 - 快手旗下“可灵”和MiniMax旗下“海螺”已实现显著营收,其中海螺在2025年前三季度的付费用户数达到31万,人均贡献高达56美元 [7] - 正在冲刺港股IPO的群核科技,旗下首个AI视频生成应用LuxReal启动内测,瞄准具备更强付费意愿的海外电商和短剧专业用户市场 [1][9] - 面对C端市场用户留存率低的挑战,群核科技目前的解法偏向于服务海外B端市场 [9] 技术挑战与路径 - 当前AI视频生成模型普遍面临“空间一致性”挑战,即难以在镜头移动、视角切换中保持物体位置、比例、形状、纹理的物理正确性 [2] - 图灵奖得主杨立昆指出,生成式模型并不理解物理世界,只是在生成漂亮的图片 [1] - 斯坦福大学教授李飞飞认为,现有AI在空间理解上非常薄弱,例如不理解物体大小、位置和距离等 [3] - 由于训练数据、算力、算法等方面的局限性,AI视频模型难以理解物理世界运动规律,更多是通过“猜测”来补齐下一帧画面,导致空间一致性问题 [3] - 绝大多数主流模型(如OpenAI的Sora)采用扩散模型与Transformer融合的技术路线,通过逐步去噪和自注意力机制来提升一致性,但仍普遍存在挑战 [2] 群核科技LuxReal的差异化方案 - LuxReal的技术路径依托群核科技庞大的3D结构化场景数据,提出“拒绝猜像素”的新路径 [1] - 公司已拥有5亿个3D结构化场景和4.4亿商品模型的数据资产,作为保障“空间一致性”的基础 [2] - 其解题思路是在AI生成视频前先对主体进行真实的3D建模,以此提升视频中物体本身的一致性 [4] - 通过“3D建模控制”与“视频算法控制”的双重保险,试图使视频效果在动作等方面保持一致性 [5] - 根据内测展示,其生成的DEMO视频中人物跳舞未出现表情崩坏,镜头之间保持了一定一致性 [2] - 但若缺乏3D建模环节,其空间一致性便大打折扣,内测中也出现了乐高积木悬空、纸盒被替换的问题 [5] - 开发人员表示,该产品仍需要持续优化 [5] 用户留存与市场考验 - 极低的用户留存率正成为悬在所有AI视频生成应用玩家头顶的达摩克利斯之剑,行业陷入“拉新容易留存难”的泥潭 [9] - 以海螺为例,2025年10月在新加坡苹果用户中的1天、7天、30天、60天用户留存率分别为22.57%、4.62%、0.8%和0.66%,这意味着每拉新100个用户,60天后只有不到1个用户会留下 [9] - 电商和短剧制作方等B端用户对视频质量有更高要求,视频是直接关联转化率的“工具”,具备更强付费意愿,但同时对交付质量要求苛刻 [9] - LuxReal能否在充满不确定性的赛道中,为工具类产品找到确定性,仍需经受真实商业环境的持续大考 [9]