可灵(Kling)3.0
搜索文档
多模态“Deepseek时刻”下的大厂分化:字节拼“效率”,快手攻“专业”,阿里聚焦“电商”!
华尔街见闻· 2026-02-12 14:35
文章核心观点 - AI视频生成技术正从“盲盒式娱乐”向“精准工业化生产”跨越,其商业化核心障碍“抽卡”导致的边际成本不可控问题正通过提升模型可控性得到解决,技术跨越使AI视频具备进入规模化B端工作流的基础[1] - 新一代多模态模型(如可灵3.0、Seedance 2.0)的升级重点在于提升可控性以压低废片率,包括跨镜头主体一致性、复杂指令语义遵循和生成后编辑能力,从而将商业化门槛从“能不能做”转变为“能不能稳定交付”[4][5] - 主要厂商战略出现分化:字节跳动(字节)侧重“效率基建”,快手押注“专业叙事”,阿里巴巴(阿里)偏向电商垂直场景,这指向了规模化吞吐、高质量叙事交付和垂直行业“可用即生产”三种不同的商业模式[13] - 技术演进将引发内容供给侧革命,内容生产的边际成本将越来越趋向算力成本,短期利好营销/电商及短剧行业效率提升,中长期则使IP稀缺性价值更为凸显,同时拥有强算力基础设施和闭环流量场景的巨头将受益于推理侧需求增长[14] 多模态模型近期密集升级 - 2025年1月至2月初,中国科技公司密集发布多模态模型更新:1月31日快手推出可灵(Kling)3.0,2月7日字节发布Seedance 2.0,2月10日字节发布Seedream 5.0,阿里发布Qwen-Image-2.0[1] 图像生成模型竞争格局(基于ELO评分) - 在图像生成领域,OpenAI的GPT Image 1.5 (high) O模型以ELO评分1264位居榜首,API定价为每千张图像133.0美元[2] - 谷歌的Nano Banana Pro (Gemini 3 Pro Image)以ELO评分1222位列第二,API定价为每千张图像134.0美元[2] - Black Forest Labs的FLUX.2 [max]模型以ELO评分1211位列第三,API定价为每千张图像70.0美元[2] - 字节跳动的Seedream 4.0和4.5模型分别以ELO评分1189和1172位列第五和第八,API定价分别为每千张图像30.0美元和40.0美元[2] 视频生成模型竞争格局(基于ELO评分) - 在视频生成领域,xAI的grok-imagine-video模型以ELO评分1241位居第一,API定价为每分钟4.20美元[3] - Vidu的Vidu Q3 Pro以ELO评分1240位列第二,API定价为每分钟9.60美元[3] - Runway的Gen-4.5以ELO评分1231位列第三,暂无API可用[3] - OpenAI的Sora 2 Pro以ELO评分1208位列第十,API定价为每分钟30.00美元[3] - 快手的Kling系列模型(如2.5 Turbo 1080p、O1 Pro)在榜单中占据多个席位,API定价在每分钟4.20美元至10.08美元之间[3] 快手可灵(Kling)3.0的核心升级 - 可灵3.0的升级关键词是基础能力系统升级以及生成与编辑的一体化(Omni)[6] - 视频侧升级重点包括:增强多镜头/连续动作场景下的主体一致性、细化复杂文本指令解析、缓解多人同框指代混乱,并强调文本与视觉角色的精准映射(支持多语种、方言口音演绎与自然口型神态)[6] - 引入Omni模式,支持在已生成内容基础上进行局部可控修改,减少推倒重来[6] - 新增专业创作能力:可创建视频主体(提取角色特征与原声音色,做精准口型匹配与驱动)以及原生自定义分镜能力[6] - 将单次生成时长提升至15秒,并允许在镜头级别指定时长、景别、视角、叙事内容和运镜方式[6] - 图片侧,可灵图片3.0支持最多10张参考图以锁定主体轮廓与色调、支持多参考图元素自由指定与编辑、支持批量组图输出用于故事板制作,并强化高清输出与细节表现[7] - 能力对比显示,可灵视频3.0相较于2.6版本,新增或增强了图生视频、首尾帧生视频、智能分帧、首帧+主体参考、三人及以上指代、多语种支持、方言口音支持、生成时长15秒及灵活自定义秒数等多项功能[8] 字节跳动Seedance 2.0的核心升级 - Seedance 2.0的定位更偏向“工业化标准”,基础层面强调物理规律合理、动作自然、指令理解精准和风格保持稳定[9] - 突出三类能力:一致性优化(覆盖人脸、服装、字体细节、场景跳变等)、高难度运镜与动作的可控复刻、创意模板/复杂特效的精准复刻[9] - 关键交互范式是使用“@素材名”指定图片/视频/音频用途,将黑盒式生成拆解为可控生产流程,模型可分别提取不同素材的特征(如运镜、细节、节奏),从而显著降低废片率[12] - 使用限制贴近生产约束:支持图片输入≤9张;视频输入≤3个且总时长不超过15秒;音频支持MP3上传≤3个且总时长不超过15秒;混合输入总上限12个文件;生成时长≤15秒(可选4-15秒);并提供自带音效/配乐输出[12] 主要厂商战略路径分化 - 字节跳动路线:侧重于低门槛、低成本的工具化与泛化能力,类似“剪映”的高级形态,目标是降低全网内容生产成本并反哺自身生态,定位为“效率基建”[13] - 快手路线:押注物理模拟、复杂场景真实感与角色一致性,更适合影视Demo、电影剧情等对连贯性要求高的专业内容,定位为“专业叙事”[13] - 阿里巴巴路线:其千问图像模型在高保真更新方向上更偏向电商等垂直场景,强化商品数字化相关能力,追求垂直行业的“可用即生产”[13] 行业影响与投资线索 - 技术跨越让AI视频具备进入规模化B端工作流的基础,电商广告、短剧/漫剧制作会更早感受到冲击[4] - 内容供给侧将发生革命,图像与视频基座能力提升后,内容生产的边际成本会越来越趋向算力成本[14] - 短期更看好两类变化:营销/电商服务商的素材产出效率提高带来毛利改善;漫剧、短剧行业可能出现产能爆发[14] - 中长期矛盾推向IP端:当内容更容易被生产,稀缺性的定价会更集中到IP上,头部IP及衍生品价值更高,腰部IP也可能通过AI视频化实现价值重估[14] - 拥有强算力基础设施(云)和闭环流量场景(平台)的巨头,会更直接吃到推理侧频繁调用带来的红利[14] - 对应的投资线索将受益方向落在内容IP、内容版权、AI视频工具/模型,以及云与平台的推理侧需求上[4]