中信建投：AI多模态和世界模型或重塑多个行业的业务逻辑

核心观点 - 多模态AI技术正从娱乐工具演变为生产力工具，商业化进程加速，并开始重塑下游产业格局 [1] 技术进展与厂商动态 - 全球领先厂商：谷歌通过Veo、Gemini等系列模型在超长上下文理解与原生音视频融合领域建立壁垒 [2] - 国内头部玩家：快手可灵、MiniMax海螺、阿里通义万相及智谱等通过架构和技术革新，重点解决了视频生成中的角色一致性失控、物理逻辑崩坏及分镜不可控等工业化生产难题 [2] - MiniMax海螺AI：其Hailuo2.3系列模型解决了大动态运镜下的物理崩坏问题，对光影、明暗及物理碰撞的模拟已接近实拍质感，海螺Media Agent可将视频、语音及语言模型封装为统一智能体，支持通过自然语言完成从脚本到视频渲染的全流程 [2] - 快手可灵AI：其发布的o1模型是首个将多种创作任务整合进统一引擎的视频大模型，在图片参考任务中的胜负比达247%，在指令变换任务中的胜负比达230% [3]；可灵视频2.6模型强化了音频同步与动作控制，支持长达30秒的复杂武打动作控制并维持音色一致 [3] - 阿里通义万相：其2.6系列模型实现了国内首个商业化角色扮演功能，通过提取参考视频特征确保角色一致性，并引入专业分镜控制公式，支持单次生成15秒高清视频，为国内公开测试最高指标 [4] - 智谱AI：其与华为发布的GLM-Image是首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型，解决了汉字渲染乱码难题，支持1024x1024至2048x2048任意比例输出，API调用生成一张图片仅需0.1元 [5] 商业化落地与市场表现 - 用户与收入增长：快手可灵AI的月活跃用户数在2026年1月已突破1200万，截至2026年1月20日，其App端付费用户规模环比增长达350%，1月日均收入较12月日均高出约30% [6]；2025年12月可灵单月收入超过2000万美元，2025年全年收入预计达1.4亿美元，其中专业生产者贡献近70% [6] - 应用场景拓展：AI漫剧成为继短剧之后视频生成应用的新场景，字节跳动等平台通过激励政策推动内容精品化，例如抖音“漫剧创作激励计划”为使用豆包大模型制作漫剧的机构提供15%技术成本补贴，并对S+漫剧提供保底激励5000元/分，单部剧保底50万-75万 [7] - 市场规模潜力：2025年9月红果短剧月活用户约2.36亿，超过了B站和优酷，接近芒果TV；短剧市场规模今年有望突破千亿，漫剧有望突破200亿 [7] 未来技术演进方向 - 技术路径：多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展，另一方面向具备物理常识与逻辑推理的世界模型演进 [7] - 原生多模态：强调AI能在一套框架下对各种模态进行统一处理 [7] - 世界模型：意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么 [7] 下游产业影响与机遇 - 营销领域：搜索营销可能从SEO、GEO进一步发展为生成式视觉检索，用户可直接获得AI实时生成的定制化视频作为回答 [8] - 文娱产业：短剧、漫剧呈现快速放量趋势，小说IP与AI视频结合能加速IP影视化进程 [8] - 游戏产业：生成式AI已应用于美术资产辅助生产，未来在世界模型加持下，实时游戏引擎将成为可能，带来类“头号玩家”的元宇宙开放世界游戏体验 [8]