AI视频生成

搜索文档
AI视频大战升级:Sora“神话”被打破?国产模型加速商业化落地
华夏时报· 2025-06-28 20:01
全球首部AI单元故事集《新世界加载中》 - 由快手可灵AI与星芒短剧联合出品、异类Outliers团队制作的全球首部AI单元故事集《新世界加载中》于6月26日上线,涵盖东方美学、赛博朋克等多种画风切换[1] - 该剧为业内已知题材涉猎最广、叙事体量最大的AIGC剧集作品,首映礼播放了3部单元剧集[2] - 完全由AI生成但非"一键生成",创作流程需建立阶段性更新的AI制作体系,涉及脚本、美术、动画到算力算法测试等环节[3] AIGC在短剧行业的应用优势 - 短剧因篇幅短、市场快速增长及AI可降低科幻题材特效成本,成为AIGC最先落地的影视内容[1] - AI技术使短剧生产成本降至传统方式的1/2以下,科幻类大场景成本降低比例更显著[4] - 掌阅科技AI短剧《遮天》用1/10时间达到传统方式60-70分水平,尤其在怪兽建模和打斗场景渲染上表现突出[3] 国内AI视频大模型竞争格局 - 快手可灵AI累计迭代超20次,全球用户突破2200万,2.1系列模型拓展专业影视生产场景,2025年Q1营收超1.5亿元[5][6] - 可灵AI年化收入运行率在正式上线第10个月突破1亿美元,月度付费金额连续两月破1亿元[6] - 即梦AI(字节跳动旗下)5月MAU达3065万环比增长39.86%,曾登顶App Store免费榜[5] - 可灵AI 2.1标准版性价比达0.7元/秒,低于友商1元/秒以上的主流1080p模型价格[6] 行业商业化探索现状 - 短剧为国内增速最快的内容类型,AI应用空间巨大但行业仍处早期阶段,商业化数字主要用于验证市场需求[4][6] - 掌阅科技通过《遮天》验证AI在商业化项目中的可行性,而非单纯技术验证[3] - 企业加速布局AI视频模型,可灵AI、即梦AI、Sora、Runway等持续升级抢占高地[5]
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
国元证券· 2025-06-27 13:13
报告行业投资评级 - 推荐,维持 [2] 报告的核心观点 - AI视频生成技术从GAN-Transformer-Diffusion Model-DiT演进,推动行业进入可商用阶段,预计2032年全球规模突破184亿人民币,2025至2032年复合增速20% [4] - 行业受价格和模型能力驱动,国产厂商如可灵等表现突出,看好行业发展,建议关注快手和美图公司 [4] 根据相关目录分别进行总结 技术路径:从GAN - Transformer - Diffusion Model - DiT - 20世纪90年代以来,AI视频生成从静态图像序列拼接成视频流开始,历经GAN、Transformer、Diffusion Model到DiT的技术演进,生成内容丰富度和可控性提升 [4][7] - GAN于2014年提出,2016年用于视频生成,存在多样性有限等问题;Transformer于2017年提出,应用于视频生成领域,成本高、速度慢;Diffusion Model由前向和反向过程组成,2020年后在视觉生成领域占主导 [8][15][22] - 2022年DiT架构提出,2024年OpenAI的Sora验证了Diffusion和Transformer结合的有效性,成为核心路线 [8][23] - 快手、可灵、Seedance、腾讯混元等采用DiT架构并进行优化,行业围绕提升效率等目标持续迭代 [30][31] AI视频生成行业:逐步进入可商用阶段,应用及商业化加速 驱动因素:价格和性能共同驱动行业成长 - 全球视频内容流量占比持续攀升,预计2032年AI视频生成全球规模达25.63亿美金,2025 - 2032年复合增速20%,市场营销及广告需求最大,社交媒体应用增长最快 [40] - 价格上,主流模型API单秒价格0.2 - 1元/秒,对比传统视频制作成本有极大替代优势;模型能力上,时长、速度、质量、丰富度等方面不断提升 [4][46][47] 行业应用:B端应用场景多元化,C端内容持续破圈 - 2B应用包括影视内容创作、商业广告等,如电商服装行业和影视短片制作,可解决成本高和周期长的痛点;2C方面,创意玩法拉近与用户距离,内容破圈 [54] 产品及竞争格局:可灵等国产厂商表现突出 - 模型表现上,Seedance1.0、Veo2/3、Kling2.0等居前,国内模型达全球领先水平;商业化上,Runway和可灵表现突出 [58] - 使用量份额上,Kling突出;web端访问量和APP端MAU方面,Sora、Kling等排名靠前 [63] 投资建议及相关标的 快手——可灵产品表现亮眼,商业化加速 - 可灵于2024年6月发布,采用DiT架构并优化,累计迭代超20次,全球用户超2200万,5月访问量达1625万次,美国、中国等为访问量前五国家 [68] - 产品有多种形态和进阶功能,支持视频延长和多图参考,创意特效助力社媒传播;商业化上,营收增速和水平居前列 [74] - 预计2025 - 2027年经调整净利润200.77/246.20/287.21亿元,维持“买入”评级 [70] 美图公司(未覆盖)——AI赋能,与阿里深化合作 - 公司通过自研和采购获取AI模型能力赋能业务,C端产品用户规模领先,AI视频工具Wink月活突破3000万,生产力场景月活用户数增长25.6% [75] - 2024年底全球月活用户数2.66亿,海外用户增长;与阿里签署2.5亿美元可转债协议,将在电商和模型开发领域合作 [75] - 预计2025 - 2027年营业收入42.43/51.69/61.56亿元,归母净利润8.10/10.92/14.58亿元 [76][77]
所有爆款 AI 视频一键生成?Hailuo Video Agent 体验
歸藏的AI工具箱· 2025-06-20 16:45
视频生成Agent行业动态 - MiniMax率先推出分阶段打造的Hailuo Video Agent 标志着视频生成Agent进入实用化阶段 [3] - 行业技术路径呈现从"钢铁侠战甲"(增强工具)向"钢铁侠机器人"(完全自主Agent)的渐进式发展特征 [4] - 视频生成模型成本上升与提示词遵循效果改善共同推动成熟Agent产品加速落地 [2] Hailuo Video Agent产品特性 技术架构 - 采用三阶段发展路径:专业模板→可打断编辑→端到端自动化 [8] - 集成多模态能力 可同步处理音乐、语音、音效、图片包装、字幕等视频制作全要素 [17] - 内置Agent编辑工具 已积累覆盖主流场景的模板库 [18] 用户体验 - 操作门槛极低 仅需上传图片或简单文字描述即可生成高质量视频 [5] - 支持ID保持功能 实现原图与生成视频间的顺滑过渡 [7] - 提供自定义GUI界面 配备自主性调节滑块满足差异化需求 [4] 应用场景覆盖 内容创作领域 - 人像动态写真:支持多套服装更换同时保持面部相似度 [9] - 宠物主题内容:可自动生成宠物生活场景视频 无需提示词输入 [11] - 产品广告视频:一键生成电商产品展示视频 自动匹配卡点音乐 [12] 垂直行业应用 - 科普视频制作:80秒长视频可同步生成专业口播与动画内容 [14] - 像素风格视频:基于简单场景词生成情侣主题像素动画 [15] - 职场主题内容:支持复杂工作流处理 实现多语音风格对话视频 [16] 技术突破 - 实现文字-图片-视频-音频的全流程自动化生成 [14] - 视频模型稳定性显著提升 保证内容连续生成质量 [11] - 突破传统视频制作限制 无需专业打光与场地即可产出广告级内容 [12]
嚯!国产视频模型的物理水准超神了 | 实测MiniMax海螺02
量子位· 2025-06-19 14:25
核心观点 - MiniMax发布新一代视频生成模型Hailuo 02,在物理场景理解和复杂指令执行方面表现突出,支持1080p高清输出和多种视频时长[4][15] - 该模型在体操、镜子成像等复杂物理场景中表现优异,相比早期模型违背常识的概率大幅降低[4][32][34] - 模型能够精准执行包含多要素、大跨度的复杂指令,生成效果稳定且具有纪录片质感[36][40][44][46] - 在图生视频方面,模型可直接生成可用于广告营销等商业场景的高质量视频,无需后期剪辑[56][57][59] - 模型采用噪声感知计算重分配(NCR)架构,训练和推理效率提升2.5倍,参数量达前代3倍,训练数据提升4倍[77][79][82] - 公司正构建从文本、语音到视频的全模态能力体系,技术布局覆盖基础模型和Agent等方向[86][87] 技术性能 - 原生支持1080p高清视频输出,同时提供768p选项,画面质感显著提升[4][15] - 支持6秒和10秒两种视频时长,可通过拼接延长[15] - 在Arena ELO基准测试中得分1332,超越谷歌Veo 3(1241)和快手Kling 2.0(1194)[12] - 训练效率提升2.5倍,参数量达前代3倍,训练数据规模扩大4倍[79][82] - 采用NCR架构实现降本增效,推理成本创新低[77][84] 应用场景 - 体育场景:精准生成体操运动员动作和复杂物理交互[1][2][4] - 影视特效:可生成雨滴悬停等好莱坞级特效画面[65][66][69] - 广告营销:直接生成Labubu玩偶宣传片等商业级视频[57][58] - 社交媒体:支持旅游打卡、灵魂画手等短视频玩法[61][63][50][52] - 纪录片制作:能处理四季变换等时间跨度大的专业需求[44][46] 用户体验 - 新用户赠送500免费积分,生成10秒768p视频消耗50积分[14] - 提供预设提示词库和运镜指导资源,支持AI自动优化提示词[71] - 网页和APP端同步上线,国内用户使用友好[12][13] - 生成效果稳定,相同提示词产出结果一致性高[40] 行业地位 - 视频生成能力进入全球第一梯队,部分表现超越谷歌Veo 3[11][73] - 在物理场景理解和复杂指令执行方面建立技术壁垒[22][32][52] - 国产模型中率先实现语音生成领域全球基准测试双料第一[86] - 通过技术创新持续提升性价比,重新定义行业标准[77][84]
AI生图之王首发视频大模型,每月10刀,最长20秒,效果超逼真
36氪· 2025-06-19 11:23
产品发布 - Midjourney发布首款AI视频生成模型V1,支持用户上传图像生成20秒视频,提供手动和自动生成动作提示词选项[1] - V1可实现画面背景变化时主人公动作连贯流畅,即使虚构形象运动也自然[1] - 用户可通过"Animate Image"按钮体验,会员起订费10美元/月,采用"按次消耗额度"机制[1] - 正在测试为60美元/月会员开放"无限制轻松模式"[1] 产品功能 - V1支持竖屏、横屏不同画幅,生成速度快,网友反馈效果流畅[3] - 提供高速运动和低速运动两种模式,分别适合动态场景和环境场景[10] - 用户可延长满意视频,每次约4秒,最多延展4次达20秒[10] - 支持上传外部图像作为起始帧并输入动作提示[10] 技术对比 - 与Runway相比,V1人物动作更流畅但周围元素可能静止,Runway整体画面更和谐[7] - V1动画效果更具大片感,而Runway效果类似制作不够精良的游戏页面[7] - 相比Veo 3,V1对旧照片动画处理的视觉效果稍逊[7] 商业模式 - 视频制作收费约为图片8倍,每个任务支持生成4个5秒视频[10] - 每秒成本大致相当于生成一张静态图像[10] - 将为专业版及以上订阅用户测试视频"轻松模式"[10] 发展战略 - V1被视为探索构建实时模拟开放世界模型的第一步[11] - 目标建立实时生成图像的AI系统,整合图像、视频、3D和实时模型[11] - 计划明年分别构建发布这些模型后逐步整合成统一系统[11] 行业动态 - 视频生成模型竞争加剧,谷歌、字节跳动、MiniMax近期均发布相关产品[12] - Midjourney从强调可访问性转向开发更复杂模拟框架[12] - 将V1描述为迈向更复杂系统的"技术垫脚石"[12]
MiniMax秀了波AI杂技视频,视频生成赛道又卷起来了
第一财经· 2025-06-18 16:47
行业动态 - AI视频生成赛道近期竞争加剧,多家公司发布新模型,包括快手可灵2.0、字节跳动即梦3.0 Pro、谷歌Veo3和MiniMax海螺02 [1] - 行业整体技术水平提升,海螺02在复杂人类动作、光影和物理模仿方面表现优异 [6] - 视频生成模型竞技场Artificial Analysis Video Arena最新排名:字节Seedance 1.0 pro第一,海螺02第二,谷歌Veo3第三 [6][7] - 行业仍处于技术迭代初期,最终市场格局尚未确定 [16] 公司表现 - MiniMax海螺02在性价比方面领先,1000元可生成1.7万条1080p视频,高于字节即梦1.4万条和谷歌Veo3 2000条 [14] - 海螺AI自去年8月发布以来已帮助创作者生成超过3.7亿个视频 [14] - 快手可灵AI全球用户达2200万,累计生成1.68亿视频和3.44亿图片,月活增长25倍 [14] - 快手可灵AI季度营收超1.5亿元,中金给予60亿美元估值,全球市场占有率30.7% [14][15] 技术进展 - 海螺02在物理运动效果和细节呈现(如泪珠)方面获得用户好评 [8] - AI视频生成仍存在"抽卡"问题,需要多次尝试才能获得理想画面 [6] - 影视行业对AI生成复杂动作场景(如剑斗)仍持观望态度 [10] - 多模态内容生成被视为大模型厂商的必要能力 [15] 商业化前景 - 快手可灵AI的营收表现显示AI视频领域商业化前景可期 [14] - 行业正从专业创作者向更广泛用户群体渗透 [15] - 性价比和生成效率(减少"抽卡"次数)是竞争关键因素 [14]
MiniMax秀了波AI视频杂技:越看越惊艳,指令遵循太强了
量子位· 2025-06-18 08:54
海螺AI 2.0视频生成能力 - 最新发布的MiniMax海螺2.0版本能生成复杂精致的视频效果,包括处理极端物理场景并原生支持1080P分辨率[1] - 展示案例显示模型可精准执行高难度动作指令,如"人物快速流畅地投掷刀具"和"空中杂技表演跟随镜头"[2][3][5][6] - 在超现实场景(如狮子跳火圈)中保持符合物理规律的光影变换,并能捕捉火星飞舞等细节[11][13][14] 技术性能与行业地位 - 海螺2.0在AI视频竞技场图生视频排行榜位列第二,ELO评分1314,超过Google Veo 3 Preview(1240)和Runway Gen 4(1119)[23][24] - 模型在指令遵循、生成质量和成本效率方面达到一流水平,网页端和APP端均已支持该版本[8][17][19] 底层架构创新 - 公司推出全球首个开源大规模混合架构推理模型MiniMax-M1,支持100万token输入(DeepSeek R1的8倍)和8万token输出(超越Gemini 2.5 Pro)[25] - 独创闪电注意力机制使8万token深度推理仅需DeepSeek R1约30%算力,10万token推理算力消耗仅为竞品的25%[26][27] - 强化学习算法CISPO比字节DAPO等算法收敛速度快1倍,整个强化学习阶段仅消耗512块H800三周时间,成本53.47万美元[27] 研发战略方向 - 公司在视频生成和长上下文推理领域连续突破,显示其基础模型创新能力持续强化[28][29] - 技术报告显示架构创新带来显著算力效率优势,支撑其在训练和推理环节的成本竞争力[26][27]
爱诗科技联合举办 CVPR 2025第二届高效端侧生成技术研讨会(EDGE)
财富在线· 2025-06-17 16:15
行业动态 - CVPR 2025第二届高效端侧生成技术研讨会(EDGE)在美国田纳西州纳什维尔市成功举办 [2] - 研讨会期间《AdaVid:Adaptive Video-Language Pretraining》和《Scaling On-Device GPU Inference for Large Generative Models》两篇论文获得最高荣誉 [2] 技术突破 - 《AdaVid》论文提出面向多场景迁移的自适应视频-语言预训练框架 [2] - 《Scaling On-Device GPU Inference for Large Generative Models》论文探讨生成式大模型端侧GPU推理的规模化加速方案 [2] 公司参与 - 爱诗科技旗下AI视频生成平台PixVerse作为联合举办方参与本次研讨会 [4] - 公司与全球顶尖学者专家进行学术共创和行业赋能合作 [4]
中信证券:预计快手(01024)可灵TAM规模超千亿美元,25-30年收入CAGR约44.7%
智通财经网· 2025-06-09 11:58
3. 商业模式:海外为主,P/B并重。 可灵当前主要收入模式为面向个人用户(P端)的会员订阅和面向企业 客户(B端)的API接入。目前70%收入来自专业P端用户,30%来自B端客户;70%收入来自海外市场(得 益于成熟的用户付费习惯和定价优势),30%来自国内。截至2025年3月,可灵AI全球用户超2200万, 为超1万家企业提供API服务。 4. 增长驱动与收入预测:高增长可期。 核心增长驱动包括:全球专业内容创作者数量增长(预计年增 10%)、可灵MAU渗透率持续提升(预计从2024E的5%升至2030E的30%)、付费率提升(从2024E的 1.5%升至2030E的5%)、以及中短期ARPPU(单付费用户平均收入)的提升趋势。基于此,预计2025- 2030年可灵收入CAGR达44.7%。 5. 估值增量:36-48亿美元。 参考同业估值(如Runway在2024年12月ARR 8400万美元对应30-40亿美元 估值,PS 36-48x),考虑到可灵评测排名、流量表现、商业规模均优于Runway,中信证券保守给予可 灵36-48x PS(基于当前ARR 1亿美元),对应估值增量约36-48亿美元。 智 ...
赛道Hyper | PixVerse国内版上线:AI视频市场生变?
华尔街见闻· 2025-06-08 10:32
公司动态 - 全球领先的AI视频生成平台PixVerse于6月6日推出国内版产品"拍我AI",同步上线网页端及移动端应用,并开放最新V4.5模型 [1] - 国内版"拍我AI"延续海外技术优势,采用"App+网页端"双端策略:App端内置百余种创意模板,网页端面向专业创作者提供精细参数调节功能 [7] - 母公司北京爱诗科技近期完成近3亿元A2至A4轮融资,由蚂蚁集团、北京市人工智能产业投资基金等机构投资,资金将用于技术研发、算力扩展及人才团队建设 [7] 产品技术 - V4.5模型在生成速度、画面精细度及多主体控制等方面实现提升,包含四大技术突破:专业运镜系统、多模态融合技术、复杂动作优化、本地化适配 [2][3] - 专业运镜系统集成20余种电影镜头模板,支持焦距变化速度(0.1-10倍速)和镜头抖动幅度(0-5级)等参数调节 [2] - 多模态融合技术支持最多8张图片输入,通过SE(3)等变网络实现多图像空间关系解算,生成20秒完整片段 [2] - 复杂动作优化使动作流畅度相比V4.0提升约30%,减少扭曲与伪影 [3] - 新增中文提示词支持、智能音效匹配及7种语言界面,针对移动端进行模型轻量化 [3] - "毒液变身"特效在TikTok等平台累计播放量达数十亿次,多次登顶多国应用商店榜单 [3][4] 市场表现 - PixVerse自2024年1月海外上线以来累计吸引全球超6000万用户,月活跃用户突破1600万 [3] - 2025年初V4.5版本上线后,其App在美国iOS总榜排名一度位列第四 [5] - 全球AI视频生成领域呈现多元化竞争态势:Runway Gen-4以人物一致性见长,Higgsfield AI强调专业运镜,Kling和Sora在长视频生成上占优 [7] - 国内市场形成快手可灵AI、抖音即梦AI及PixVerse的头部竞争格局 [8] 行业影响 - AI视频生成技术在中国市场进一步渗透,正成为数字内容产业的重要工具 [9] - 技术将重塑内容生产、传播与消费的全链条 [9]