核心观点 - 多模态AI技术正从娱乐工具演变为生产力工具,商业化进程加速,并开始重塑下游产业格局 [1] 技术进展与厂商动态 - 全球领先厂商:谷歌通过Veo、Gemini等系列模型在超长上下文理解与原生音视频融合领域建立壁垒 [2] - 国内头部玩家:快手可灵、MiniMax海螺、阿里通义万相及智谱等通过架构和技术革新,重点解决了视频生成中的角色一致性失控、物理逻辑崩坏及分镜不可控等工业化生产难题 [2] - MiniMax海螺AI:其Hailuo2.3系列模型解决了大动态运镜下的物理崩坏问题,对光影、明暗及物理碰撞的模拟已接近实拍质感,海螺Media Agent可将视频、语音及语言模型封装为统一智能体,支持通过自然语言完成从脚本到视频渲染的全流程 [2] - 快手可灵AI:其发布的o1模型是首个将多种创作任务整合进统一引擎的视频大模型,在图片参考任务中的胜负比达247%,在指令变换任务中的胜负比达230% [3];可灵视频2.6模型强化了音频同步与动作控制,支持长达30秒的复杂武打动作控制并维持音色一致 [3] - 阿里通义万相:其2.6系列模型实现了国内首个商业化角色扮演功能,通过提取参考视频特征确保角色一致性,并引入专业分镜控制公式,支持单次生成15秒高清视频,为国内公开测试最高指标 [4] - 智谱AI:其与华为发布的GLM-Image是首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,解决了汉字渲染乱码难题,支持1024x1024至2048x2048任意比例输出,API调用生成一张图片仅需0.1元 [5] 商业化落地与市场表现 - 用户与收入增长:快手可灵AI的月活跃用户数在2026年1月已突破1200万,截至2026年1月20日,其App端付费用户规模环比增长达350%,1月日均收入较12月日均高出约30% [6];2025年12月可灵单月收入超过2000万美元,2025年全年收入预计达1.4亿美元,其中专业生产者贡献近70% [6] - 应用场景拓展:AI漫剧成为继短剧之后视频生成应用的新场景,字节跳动等平台通过激励政策推动内容精品化,例如抖音“漫剧创作激励计划”为使用豆包大模型制作漫剧的机构提供15%技术成本补贴,并对S+漫剧提供保底激励5000元/分,单部剧保底50万-75万 [7] - 市场规模潜力:2025年9月红果短剧月活用户约2.36亿,超过了B站和优酷,接近芒果TV;短剧市场规模今年有望突破千亿,漫剧有望突破200亿 [7] 未来技术演进方向 - 技术路径:多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面向具备物理常识与逻辑推理的世界模型演进 [7] - 原生多模态:强调AI能在一套框架下对各种模态进行统一处理 [7] - 世界模型:意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么 [7] 下游产业影响与机遇 - 营销领域:搜索营销可能从SEO、GEO进一步发展为生成式视觉检索,用户可直接获得AI实时生成的定制化视频作为回答 [8] - 文娱产业:短剧、漫剧呈现快速放量趋势,小说IP与AI视频结合能加速IP影视化进程 [8] - 游戏产业:生成式AI已应用于美术资产辅助生产,未来在世界模型加持下,实时游戏引擎将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验 [8]
中信建投:AI多模态和世界模型或重塑多个行业的业务逻辑