AI产品测评体验系列报告：多模态模型迎来Deepseek时刻，供给革命将重新定义内容创作范式

报告行业投资评级 - 行业投资评级：推荐（维持）[3] 报告核心观点 - 多模态模型迎来“Deepseek时刻”，供给革命将重新定义内容创作范式[3] - AI视频生成正在从盲盒式娱乐向精准工业化生产跨越，技术跨越使得AI视频正式具备了进入规模化B端工作流的基础[8] - 供给侧革命将重塑内容成本结构，内容生产的边际成本趋向于算力成本[8] - 看好视频生成技术显著降低视频生产门槛，提升成片率与稳定性，将直接催化下游内容IP方、内容版权、AI应用工具等，并拉动云服务与算力需求[8] 多模态模型年初迎来重磅更新，视频生成模型迈入高精度、高可控阶段 - 2026年1月31日，快手发布新一代视频生成模型可灵（Kling）3.0系列，涵盖图片3.0、视频3.0以及视频/图片一体化的Omni模式，在模型精度、主体一致性、复杂指令理解及视频编辑能力等方面进行了系统性升级[11] - 2026年2月6日，字节跳动发布新一代视频生成模型Seedance 2.0，在基础层面显著增强，物理规律更合理、动作表现更自然流畅、指令理解更精准、风格保持更稳定[11] - 2026年2月10日，字节与阿里同步更新图像生成基模，字节发布图像生成模型Seedream 5.0，阿里发布新一代图像生成及编辑模型Qwen-Image-2.0[11] - 全球多模态模型竞争激烈，截至2026年2月11日，根据Artificial Analysis模型排名，文生图和文生视频模型排名前列被谷歌和OpenAI占据，随着国内厂商新版本发布，有望看到排名提升[12] 可灵3.0：深耕物理拟真与长逻辑叙事 - 基础模型更新：可灵3.0在视频生成质量和可控性方面重点优化，主要体现在主体一致性与连续性提升、复杂文本指令理解能力增强、实现文本与视觉角色的精准映射[16] - 视频3.0在人物、物体等主体的跨镜头一致性方面进行了重点优化，主体外观和行为稳定性显著增强[17] - 对文本提示词的解析更加细致，能更准确理解包含场景描述、动作顺序、情绪氛围等在内的复杂指令[17] - 在多人同框场景能够解决指代混乱难题，支持多语种及地道方言和口音的演绎，口型与神态自然流畅[19] - 图片模型升级：围绕图像生成精度、一致性以及可控性展开，核心包括一致性强化升级、自由多参考图、全面效果升级[22] - 图片3.0支持最多10张参考图，可精准锁定各图的主体轮廓、核心元素与色调基调，实现高精度视觉一致性还原[22] - 融合风格转绘、人像参考、角色参考、多图融合、局部重绘等功能，实现无限制自由使用参考图[27] - 人像真实感全面升级，神态灵动自然，皮肤肌理等细节刻画更细腻，叠加电影级色调，整体画面元素细节更丰富[28] - Omni一体化编辑能力：推出生成和编辑一体化能力（Omni模式），可在已生成内容基础上对局部进行可控修改，无需反复生成完整内容[29] - 视频3.0 Omni相比O1，主体相似度进一步提升，对文本指令的响应敏锐度大幅跃升，画面更少崩坏，整体更可控、更灵动[29] - 支持创建视频主体，模型可提取核心角色特征与原声音色，完美还原角色的样貌、身形、神韵，实现精准口型匹配与神韵驱动[32] - 引入原生自定义分镜能力，并将单次生成时长提升至15秒，可进行镜头级别的精确掌控[32] - 图片3.0 Omni模式支持对已生成图像进行局部内容的新增、替换、删除等操作，保持整体风格一致[33] - 支持批量组图输出，围绕同一语义提示批量生成相关图像组，每张图像在构图、色调与主体表现上具备较强的内部一致性[36] - 强化影视级叙事画面表达，严格遵循影视镜头语言，精准把控画面构图、视角逻辑与创作预期的契合度[37] - 支持更高分辨率输出，在细节、光影、结构一致性层面提升控制力[39] Seedance 2.0：定义工业级精准控制标准 - 基础模型更新：在基础层面显著增强，主要体现在一致性提升、高难度/可控的运镜和动作的精准复刻、创意模版/复杂特效的精准复刻[41] - 优化创作中常见的“一致性”问题，如画面中的物体出现变现、商品细节丢失、字体模糊、场景跳变等，新版本模型的整体一致性更稳、更准[50] - 支持高难度/可控的运镜和动作精准复刻，只需少量细节提示词或上传一段参考视频即可模仿电影里的走位、运镜或者复杂动作[44] - 定义多模态交互新范式：AI视频生成正在从“开盲盒”向“精准工业化控制”跨越[48] - 可通过“@素材名”的方式指定每个图片、视频、音频的用途，模型可以精准提取@视频的运镜、@图片的细节或@音频的节奏，这种全新交互范式将大幅降低专业创作者的“废片率”[48] - 支持「首尾帧」和「全能参考」入口，支持上传文本、图片、视频、音频等多模态素材组合输入[53] 可操作性优化拓宽应用边界 - 本次更新后可灵和即梦视频和图片模型在语言理解能力和分镜能力提升明显[54] - 语言理解能力：对中文提示词的理解非常精准，能够细腻捕捉复杂的修辞和意境[54] - 分镜能力：在镜头平滑度、运动幅度及运镜逻辑上表现卓越，能够实现优秀的动态效果[54] - 精度的提升使得应用场景从单纯的娱乐内容向商业广告、电商营销、专业短剧预演等垂直领域扩充[54] - 应用场景的边际拓展将显著拉动积分消耗（API调用量）及付费订阅渗透率，从而带动整体货币化率持续走高[54] 产品格局与商业化推演 - 产品格局推演：国内大厂的视频产品路径分化，字节走“效率基建”，快手走“专业叙事”[8] - 字节（即梦）沿袭超级APP逻辑，利用原生架构的通用性，旨在打造低门槛、低成本的视频生态基建[8] - 快手可灵强化物理模拟，壁垒在于复杂场景的真实感与角色一致性，更适合影视Demo、电影剧情等对连贯性要求高的专业内容[8] - 阿里千问更擅长垂直场景（电商），通过图像模型的高保真更新，强化在商品数字化的护城河[8] - 商业化推演： - 短期看：营销/电商服务商的素材产出效率提升将带来毛利改善；漫剧、短剧行业或将迎来产能爆发[8][57] - 中长期：IP的稀缺性会进一步放大，头部IP及其衍生品的价值很高，腰部IP也能通过AI视频化实现价值重估[8][57] - 拥有强算力基础设施（云）和闭环流量场景（平台）的巨头或也将吃到技术红利[8][57] 投资机会梳理 - 视频生成技术显著降低视频生产门槛，提升成片率与稳定性，将直接催化至下游内容IP方、内容版权、AI应用工具等，视频模型在推理侧频繁调用形成对云服务与算力需求的拉动[58] - 建议关注： - 内容IP：中文在线、阅文集团、上海电影、掌阅科技、欢瑞世纪等[58] - 内容版权：阜博集团、捷成股份、华策影视、视觉中国等[58] - AI视频制作工具/模型：中文在线、掌阅科技、万兴科技、美图、快手、Minimax[58] - 互联网平台/AI云服务：阿里巴巴、腾讯、百度、金山云等[59]