Workflow
阿里通义万相
icon
搜索文档
中信建投:AI多模态和世界模型或重塑多个行业的业务逻辑
智通财经网· 2026-01-26 08:07
核心观点 - 多模态AI技术正从娱乐工具演变为生产力工具,商业化进程加速,并开始重塑下游产业格局 [1] 技术进展与厂商动态 - **全球领先厂商**:谷歌通过Veo、Gemini等系列模型在超长上下文理解与原生音视频融合领域建立壁垒 [2] - **国内头部玩家**:快手可灵、MiniMax海螺、阿里通义万相及智谱等通过架构和技术革新,重点解决了视频生成中的角色一致性失控、物理逻辑崩坏及分镜不可控等工业化生产难题 [2] - **MiniMax海螺AI**:其Hailuo2.3系列模型解决了大动态运镜下的物理崩坏问题,对光影、明暗及物理碰撞的模拟已接近实拍质感,海螺Media Agent可将视频、语音及语言模型封装为统一智能体,支持通过自然语言完成从脚本到视频渲染的全流程 [2] - **快手可灵AI**:其发布的o1模型是首个将多种创作任务整合进统一引擎的视频大模型,在图片参考任务中的胜负比达247%,在指令变换任务中的胜负比达230% [3];可灵视频2.6模型强化了音频同步与动作控制,支持长达30秒的复杂武打动作控制并维持音色一致 [3] - **阿里通义万相**:其2.6系列模型实现了国内首个商业化角色扮演功能,通过提取参考视频特征确保角色一致性,并引入专业分镜控制公式,支持单次生成15秒高清视频,为国内公开测试最高指标 [4] - **智谱AI**:其与华为发布的GLM-Image是首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,解决了汉字渲染乱码难题,支持1024x1024至2048x2048任意比例输出,API调用生成一张图片仅需0.1元 [5] 商业化落地与市场表现 - **用户与收入增长**:快手可灵AI的月活跃用户数在2026年1月已突破1200万,截至2026年1月20日,其App端付费用户规模环比增长达350%,1月日均收入较12月日均高出约30% [6];2025年12月可灵单月收入超过2000万美元,2025年全年收入预计达1.4亿美元,其中专业生产者贡献近70% [6] - **应用场景拓展**:AI漫剧成为继短剧之后视频生成应用的新场景,字节跳动等平台通过激励政策推动内容精品化,例如抖音“漫剧创作激励计划”为使用豆包大模型制作漫剧的机构提供15%技术成本补贴,并对S+漫剧提供保底激励5000元/分,单部剧保底50万-75万 [7] - **市场规模潜力**:2025年9月红果短剧月活用户约2.36亿,超过了B站和优酷,接近芒果TV;短剧市场规模今年有望突破千亿,漫剧有望突破200亿 [7] 未来技术演进方向 - **技术路径**:多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面向具备物理常识与逻辑推理的世界模型演进 [7] - **原生多模态**:强调AI能在一套框架下对各种模态进行统一处理 [7] - **世界模型**:意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么 [7] 下游产业影响与机遇 - **营销领域**:搜索营销可能从SEO、GEO进一步发展为生成式视觉检索,用户可直接获得AI实时生成的定制化视频作为回答 [8] - **文娱产业**:短剧、漫剧呈现快速放量趋势,小说IP与AI视频结合能加速IP影视化进程 [8] - **游戏产业**:生成式AI已应用于美术资产辅助生产,未来在世界模型加持下,实时游戏引擎将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验 [8]
靠视频大模型赚钱,还是个梦
投中网· 2025-07-18 14:10
行业动态 - 2025年AI视频生成赛道成为行业最热门领域,国内大厂如快手、字节、阿里、腾讯等密集推出迭代产品,包括快手可灵2.0、字节即梦3.0、阿里万相2.1等 [4] - 行业技术快速进步,语义响应、画面质量、动态质量等指标显著提升,商业化前景显现,如快手可灵AI 2025年Q1收入超1.5亿元,带动股价上涨30% [4] - 全球竞争格局中,快手可灵系列使用份额达30%,超越Runway(23.6%)和Veo-2(16.6%),但谷歌Veo 3凭借音画同步技术重新定义行业标准 [8][10] 公司竞争 - 快手可灵AI通过快速产品化抢占先机,上线一年用户达2200万,早期技术优势明显(1080P清晰度),但近期被字节即梦等竞品追赶 [8][10] - 字节即梦AI通过Seaweed和PixelDance模型迭代实现反超,即梦App下载量一度登顶免费榜,月活用户893万(快手可灵180万),积分激励策略更激进 [10][12][13] - 创业公司表现突出,如生数科技Vidu 2.0、爱诗科技PixVerse(月收入千万元级),形成与大厂差异化竞争 [9][5] 技术瓶颈 - 视频生成面临三大限制:架构局限(最长10秒片段)、算力不足(数据量指数级增长)、高质量训练数据稀缺,导致技术进入平台期 [19] - 关键痛点包括输出一致性差(相同输入产生不同结果)、运动镜头生成困难(仅能制作"动态PPT"),制约商业化应用 [16][17] - 厂商转向优化用户体验,如可灵3.0拓展多模态支持,即梦3.0强化多模态生成能力,竞争焦点从技术突破转向工作流优化 [20] 商业化探索 - 主流商业模式为免费+会员制,字节即梦连续包月69元/1080积分,快手可灵66元/660积分,付费群体集中于影视、广告等专业创作者 [12][13] - 成本优势与局限并存:AI视频生成成本(300美元/分钟)远低于传统动画(200万美元/分钟),但试错成本高导致实际支出不可控 [14][17] - 短剧领域试水案例增多,但投资方态度谨慎(单项目约20万元),市场验证尚未完成,如《上海奇境》《三星堆》票房表现平平 [18] 生态布局 - 字节依托抖音/TikTok流量和火山引擎技术协同,强化即梦在内容分发、剧本创作等环节的生态优势 [21][22] - 快手通过创作大赛(如《末日进行时》《太阳坠落之时》)挖掘优质创作者,结合资源扶持构建内容生态 [22]
靠视频大模型赚钱,还是个梦
创业邦· 2025-07-17 18:05
视频生成赛道竞争格局 - 国内AI视频生成赛道竞争激烈,快手可灵2.0、字节即梦3.0、阿里万相2.1、腾讯HunyuanCustom、生数科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登场,技术指标显著提升[3] - 快手可灵AI在2025年第一季度收入超过1.5亿元,带动快手港股涨幅超30%[4] - 字节跳动Seed负责人将2025年定义为图像生成商业化元年,Pixverse月订阅收入达千万元级别[4] 主要厂商市场表现 - 快手可灵AI全球用户达2200万,在Poe平台使用份额超30%,超越Runway和Veo-2[7] - 字节即梦App在苹果商店下载量一度登顶,超越豆包和红果短剧[13][14] - 谷歌Veo 3实现音画同步突破,重新确立技术领先地位[11] 技术发展现状 - 视频生成模型普遍面临"一致性"和"运动性"难题,输出效果不稳定[5][22] - 当前模型最长只能生成5-10秒片段,1分钟视频生成仍不可行[26] - 技术瓶颈主要来自架构限制、算力不足和高质量训练数据稀缺[26][28][29] 商业化探索 - 主流商业模式为免费+会员制,即梦包月69元/可灵66元,积分机制不同[17] - AI视频制作成本显著低于传统方式(300美元/分钟 vs 200万美元/分钟)但试错成本高[19][23] - 专业创作者是核心付费群体,集中在影视、短剧、广告、游戏领域[18] 厂商战略差异 - 字节即梦侧重用户规模扩张,月活达893万;快手可灵专注专业用户渗透,月活180万[17] - 快手通过创作大赛发掘人才,投资S级短剧项目;字节依托抖音生态和火山引擎技术支持[30] - 厂商竞争重点从技术突破转向用户体验优化和多模态能力拓展[29] 行业挑战 - AI视频在短剧领域成本优势不明显,1分钟短剧仍需数千元试错成本[23][24] - 动态镜头生成能力不足,当前AI视频多为"动态PPT"效果[23] - 投资方态度谨慎,多采取小规模试水策略[24]
快手可灵战略提级,视频大模型混战时代来了?
搜狐财经· 2025-05-15 06:27
AI行业现状与趋势 - AI技术已深度渗透各行业,百度将DeepSeek整合进搜索,腾讯将大模型应用于微信,语言大模型成为多领域基础设施[1] - 当前AI革命正经历从图文交互到视频交互的升级,视频大模型成为新一轮技术竞争焦点[3][5] - 移动互联网时代的流量革命被短视频平台主导,AI时代可能重塑流量分配规则[2][24] 视频大模型竞争格局 巨头布局 - 腾讯混元视频大模型和阿里通义万相代表巨头入场,战略目的是抢占入口并为未来业务储备技术[5][6] - 巨头采取"先布局后跟进"策略,等待技术路线明确后快速投入资源[6][7] 专业AI公司 - 商汤科技V-ME和科大讯飞讯飞绘镜受资源限制,主要聚焦主营业务,在视频大模型领域处于陪跑状态[8] 短视频平台 快手策略 - 成立可灵AI事业部并提升至最高战略级别,2月累计营收超1亿元,前三月营收超2024年总和[11] - 定位生产力工具,可灵AI2.0能力部分超越Sora,已服务2200万用户和1.5万企业客户[11][14] - 采用微软式商业化路径,优先服务专业创作者(professional creators)[12][13] 抖音策略 - 组建AGI研究团队并发布Seaweed-7B模型,25秒生成高质量视频,侧重技术突破[16] - 采取"游戏运营逻辑",通过免费策略积累用户数据,计划用1%重度用户实现商业化[17][18] - 依托现有流量优势复制成功路径,但产品效果目前逊于快手[16][21] 视频大模型应用前景 专业化方向 - 可能颠覆影视行业成本结构,爱奇艺2024年内容成本达157.1亿元占总支出的72%[32][34] - 好莱坞级别制作如《哪吒2》《流浪地球》面临高成本问题,AI或成解决方案[34][35] - 技术成熟后可能实现"所述即所见",彻底改变视觉内容生产方式[29][30] 大众化方向 - 百度"秒哒"证明自然语言编程可行性,视频大模型或将降低创作门槛引发内容井喷[36] - 历史数据显示内容形态迭代会降低单位流量成本,视频大模型可能催生新商业模式[36][38] - AI将改变"码字-代码-拍摄"三大信息创造方式,提升视觉内容生产效率[40][42] 行业潜在变数 - 当前格局类似移动互联网初期,可能出现类似DeepSeek的颠覆者改变竞争态势[43] - 金融领域幻方量化孵化DeepSeek的成功案例显示,效率导向领域更易产生技术突破[43] - 视频大模型发展可能推动互联网向元宇宙时代演进,但创意环节仍需人类主导[43]