AI视频生成

搜索文档
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
中金点睛· 2025-08-01 08:09
技术路径演进 - 2024年OpenAI发布Sora后视频生成技术路径收敛至DiT(Diffusion Transformer)架构,取代了此前图像拼接、自回归扩散等混合路径[2][4] - DiT架构通过时空注意力联合建模实现89%的生成一致性,支持60秒长视频生成和多分辨率输入,物理模拟能力显著提升[7][11] - 仍存在自回归路径分歧,OpenAI GPT-4o和Sand AI采用自回归模型,认为其对长时间序列建模更合适[14] - 技术发展将沿两个方向延伸:端到端多模态大模型(如Google Gemini)和多模态理解生成统一架构(如DeepSeek Janus-pro)[16][17] 市场空间与格局 - 2024年全球AI视频生成市场规模约6亿美元,中期P端+B端市场空间有望达100亿美元[3][22] - P端市场中性测算空间32亿美元,基于1.6亿国内创作者和2亿海外创作者的付费渗透率假设[23][24] - B端市场中性测算空间94亿美元,主要来自广告、电商视频和影视行业的AI渗透[25][26] - 2025年竞争格局集中,快手可灵以20%市占率领先,Runway、海螺、爱诗等中国厂商占据主要份额[27][28] 中国厂商表现 - 中国公司在模型能力和产品力上超越海外,快手可灵2025年ARR超1.5亿美元全球领先[3][22] - 技术榜单显示字节Seedance、MiniMax海螺、快手可灵在文生视频和图生视频排名靠前[39][40][41] - 产品定位分化:可灵、海螺专注P端/B端专业用户;爱诗PixVerse、字节即梦主攻C端低门槛市场[45][48] - 商业模式以订阅制为主,高质量模式单秒定价进入0.4-2元区间,已触及创作者价格不敏感阈值[50][51] 技术应用与影响 - 视频生成已初步渗透影视、电商、广告场景,顶级动画电影制作成本从200万美元/分钟降至300美元/分钟[22][31] - 生成时长10秒内已满足多数需求,核心矛盾转向角色一致性和提示词理解能力[38] - 多模态技术重构内容生产流程,催生Prompt导演、审美把关人等新岗位,传统视频剪辑等职位面临转型[31] - 开源生态加速发展,快手Orthus、通义万相等开源模型推动行业技术民主化[19][37]
马斯克偷偷憋了个大招,Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
36氪· 2025-07-30 11:49
马斯克又放大招!这次不是火箭,不是Grok智商升级,而是一个几乎能拍电影的AI视频生成器「Imagine」。它不但能加音效、配画面,还支持 多风格生成。网友实测效果太炸裂! 马斯克的Grok也能生成视频了! Grok即将推出了「Imagine」视频功能,直接挑战谷歌的Veo 3。 马斯克表示正在修复相关的bug,并且附上了机器人修复机器鸟的视频。 源自古代天空的奇想:Archytas的飞行鸽 —— 可能是世界上最早的「机器人」? 视频效果之炫目,让Michael Hyacinth怀疑这段视频来自某部电影中的情节。 这是人类历史上首个具备自我推进能力的飞行装置。虽然它在今天看来并不算真正意义上的飞行,但这项发明在理解鸟类飞行机制与空气动力学方面,迈出 了具有划时代意义的一步。 视频中,机器人修复的金光闪烁的「机器之鸽」,让网友联想起古希腊数学家、哲学家、数学力学先驱Archytas的机械飞鸟传说。 得到试用机会的网友,用Grok制作了赛博朋克风格的视频。 代码在血色的暗室里跳动,机械手在键盘上掀起金属风暴。 这个瞳孔泛着危险红光的Robot,正用二进制语言撕咬人类文明的防火墙。六块曲面屏同时倾泻数据瀑布,0与1 ...
国产AI视频三国杀:可灵、即梦、Vidu,谁会是最大赢家?
36氪· 2025-07-30 08:16
产品实测表现 - 可灵AI优势在于表现力强 能够生成极具视觉冲击力的画面 适合制作戏剧化内容 劣势在于容易"用力过猛" 对度的把握不足 免费版生成等待时间超过3小时[2][14][17] - Vidu优势在于真实细腻 模拟真实物理世界和微表情潜力强 视频最具电影感 劣势在于节奏慢爆发力不足 5秒时长内难以完全展现核心内容[2][17][28] - 即梦AI优势在于均衡可控 能准确完成指令 功能全面性最佳 支持数字人/动作模仿/运镜选择 劣势在于艺术表达缺乏惊喜 略显平庸[11][18][33] 技术路线差异 - 可灵采用与Sora一致的DiT架构 并自研3D VAE和3D时空联合注意力机制 实现时空信息高度融合处理 支持生成10秒1080P视频 在多模态编辑功能上突出[23][24][25] - Vidu采用U-ViT融合架构 结合U-Net底层特征捕捉与Transformer全局语义理解 实现端到端一次性生成 支持1080P输出 在参考生视频功能上独具特色[26][27][28] - 即梦以自研Seedance 1.0系列模型为主 引入精准描述模型和统一预训练框架 最快40秒生成5秒1080P视频 采用分级模型策略 即梦3.0用Seedance 1.0 mini模型 pro版用更强模型[29][31][33] 商业生态布局 - 可灵背靠快手短视频流量池 全球创作者超4500万 累计生成视频超2亿个 图片超4亿张 通过《新世界加载中》案例展示内容侧野心[2][4][35] - 即梦依托字节跳动旗下抖音和剪映 形成创作-分发闭环 目标成为下一代视频创作工作流核心 工具属性定位明确[18][36][38] - Vidu具备清华系技术背书 定位底层基础大模型 在To B市场有想象空间 但面临产品化和市场化挑战[35][37] 行业竞争格局 - 第三方评测Artificial Analysis显示 即梦Seedance 1.0在文生视频榜单以1314分位居首位 图生视频榜单以1365分领先[30][32][33] - 可灵Kling 2.0在文生视频榜单获1114分 图生视频榜单获1194分 处于竞争梯队[30][32] - 行业形成可灵表现派 Vidu写实派 即梦工具派的技术分化格局 最终赢家预计在可灵和即梦间产生[34][37][38]
马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
搜狐财经· 2025-07-29 20:28
新智元报道 编辑:KingHZ 【新智元导读】马斯克又放大招!这次不是火箭,不是Grok智商升级,而是一个几乎能拍电影的AI视频生成器「Imagine」。它不但能加音效、配画面, 还支持多风格生成。网友实测效果太炸裂! 马斯克的Grok也能生成视频了! Grok即将推出了「Imagine」视频功能,直接挑战谷歌的Veo 3。 马斯克表示正在修复相关的bug,并且附上了机器人修复机器鸟的视频。 视频效果之炫目,让Michael Hyacinth怀疑这段视频来自某部电影中的情节。 视频中,机器人修复的金光闪烁的「机器之鸽」,让网友联想起古希腊数学家、哲学家、数学力学先驱Archytas的机械飞鸟传说。 源自古代天空的奇想:Archytas的飞行鸽 —— 可能是世界上最早的「机器人」? 这是人类历史上首个具备自我推进能力的飞行装置。虽然它在今天看来并不算真正意义上的飞行,但这项发明在理解鸟类飞行机制与空气动力学方面,迈 出了具有划时代意义的一步。 网友表示这次马斯克在视频上动真格了。 电影级质量 细节逼真到离谱 得到试用机会的网友,用Grok制作了赛博朋克风格的视频。 代码在血色的暗室里跳动,机械手在键盘上掀起金属 ...
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
量子位· 2025-07-29 08:40
通义万相Wan2.2模型技术突破 - 阿里开源新一代视频生成模型通义万相Wan2.2,包含文生视频、图生视频和混合视频生成功能[4] - 首次在视频生成模型中实现MoE架构,包含Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两个版本,可生成电影级质感视频[5] - 5B版本支持消费级显卡部署,是目前最快的24fps、720P基础模型[5] - 相比前代Wan2.1,图像训练数据增加65.6%,视频数据增加83.2%[31] 模型架构创新 - 采用MoE架构解决视频生成模型参数扩展难题,通过拆分高噪/低噪专家模型处理不同去噪阶段[26][28] - 引入900去噪时间步划分,高噪模型负责主体结构构建,低噪模型处理细节生成[28] - 自研高压缩比3D VAE结构实现16x16x4压缩比,降低显存占用同时保持重建质量[34][35] - 验证损失(Validation loss)达到行业最低水平,视频生成质量最优[29] 电影级美学控制系统 - 整合光影、色彩、镜头语言三大电影元素,提供12个美学维度和60+专业参数控制[37][38] - 支持精确调控光线时段/类型/强度/方向、构图法、拍摄角度、色彩情绪等[38][40][42] - 用户仅需添加美学关键词前缀即可自动生成专业导演质感的画面[46] 复杂运动与交互能力 - 构建面部原子动作系统,可生成微表情如"强忍泪水时的嘴唇颤抖"[47] - 优化手部动作系统,支持从基础操作到专业精密动作的生成[48] - 提升多人交互物理合理性,避免角色穿模现象[49] - 增强高强度运动(体操/滑雪等)的稳定性,减少动作失真[50] 产品生态与行业影响 - 通义万相系列累计下载量超4亿次,衍生模型超14万,全球排名第一[54] - 配套推出"万相妙思+"创作活动,设置兴趣组(5-15秒)和专业组(30秒+)赛道[54] - 模型已上线通义万相平台及GitHub/HuggingFace/魔搭社区[18][56] - 该技术突破可能重塑电影工业生产流程[55]
爱诗科技携拍我AI及开放平台首次亮相WAIC
证券时报网· 2025-07-28 19:53
7月26日—28日,2025年世界人工智能大会(WAIC 2025)在上海举办。爱诗科技携国内版核心产品拍 我AI及拍我AI开放平台,首次亮相本届大会。 今年5月,爱诗科技更新的V4.5版本PixVerse一度冲上美国iOS应用商店总榜第四,全球用户量已超过 6000万。 爱诗科技表示,公司的模型训练成本控制显著低于行业水平,这使得爱诗科技能够更高效地迭代模型, 探索创新方向、进行全球部署。团队具备高效训练的"数据炼金术",这极大地降低了模型训练成本。 在此次WAIC上,拍我AI开放平台展示的核心功能模块,包括首尾帧多帧,多主体生成、智能对口型、 创意视频续写、电影级运镜、专业音画一体等,已全面上线其国内版网页端和API平台。爱诗科技表 示,公司致力于为全球开发者和用户提供强大的视频创作工具,推动视频生产效率提升。 在公司看来,视频行业空间可观,有长视频、短视频、直播、电影电视等,AI视频亦存在较大发展空 间,未来各自产品化方向会百花齐放。 近期,拍我AI(PixVerse)多主体生成、多关键帧生成功能的推出并开放API接口,使得AI视频创作的 叙事能力得到了进一步提升,显著提高了电影预告、小说动漫、广告剧情 ...
瑞银证券熊玮:中企在AI视频生成模型崭露头角
证券时报网· 2025-07-25 19:48
云和广告领域AI变现 - 云和广告是AI变现最明确的两大领域,面向企业的AI服务具备更强变现能力[1][2] - 一季度中国主要云服务商AI相关收入占比达10%-20%,2025年市场预期上升6-13个百分点[2] - AI技术改进使头部媒体平台广告点击率、转化率和eCPM提升5%-10%[2] 企业AI智能体发展 - 企业级智能体及垂直领域应用推进领先,变现模式成熟(订阅/佣金/SaaS)[3] - 中国企业软件潜在市场规模超1.6万亿元,智能体可提升工作流程效率[3] - 垂直领域智能体因ROI可见度高,变现早于通用智能体[4] 通用消费类智能体现状 - 通用消费类智能体功能有限,潜在市场空间3.2万亿元但变现进展渐进[4] - 头部互联网公司持续探索嵌入式/独立智能体以保持用户流量竞争力[4] AI视频生成领域 - AI视频生成可降低传统制作成本至0.1%,重塑电影/广告/游戏内容行业[5][6] - 中国公司在视频生成模型竞争中领先,受益于短视频平台内容库和人才储备[6] - 领先模型在速度、运动一致性等指标各具优势,当前受限于剪辑长度和可控性[6]
A股跌破3600点,什么情况?
搜狐财经· 2025-07-25 15:57
市场整体表现 - 三大指数均小幅下跌 沪指跌0.33%至3600点下方 深指跌0.22% 创业板指跌0.23% [1] - 市场呈现轮动态势 AI概念股反弹 华为算力活跃 医疗器械走强 海南自贸与超级水电概念股跌幅居前 [1] - 3600点上方抛压沉重 整数关口存在心理压力 历史突破尝试均未成功 [1] - 市场分化明显 热点板块回调需求增强 权重股调整 二季度业绩担忧情绪升温 [1] AI概念板块 - AI视频生成全球规模2024年预计6.15亿美元 2025年达7.17亿美元(同比+17%) 2032年预计25.63亿美元(2025-2032年CAGR 20%) [2] - 下游应用以市场营销广告为主 社交媒体领域增速最快 [2] 华为算力板块 - 世界人工智能大会将首次线下展示昇腾384超节点真机 该技术实现384卡高速总线互联 [2] 医疗器械板块 - "反内卷"政策与集采规则优化推动估值修复 未落地赛道降幅或缓和 已落地赛道可能温和续约 [2] 白酒板块 - 35度500ml飞天茅台散瓶价跌至1870元/瓶 原箱装价跌至1920元/瓶 价格未企稳拖累板块表现 [3] - 前期上涨源于资金轮动 红利股资金流入白酒板块 [2]
谷歌Veo 3新玩法刷屏!国内同款神器也能复制
AI研究所· 2025-07-24 18:09
谷歌Veo 3视频生成模型的热潮 - 谷歌Veo 3视频生成模型近期在社交媒体上引发热潮 一条展示IKEA家具自动组装的视频播放量破百万 TikTok博主发布的魔性切草莓视频播放量达2000万 [1][4] - Veo 3的创意应用广泛 包括穿越vlog 童话角色现代街头演绎 沙雕新闻制作等 其中战地记者赤壁报道和曹操私生活八卦等内容极具创意张力 [4][7] - 该模型已面向70多个市场的AI Pro和Ultra用户开放 但存在生成额度限制 Pro用户每天仅3个生成额度 视频长度限制在3-8秒 [4] - 这股热潮推动Google DeepMind总访问量在4-5月增长162% 谷歌CEO表示用户已创建超过4000万视频 [9][11] 国内AI视频工具的发展 - 讯飞绘镜作为科大讯飞推出的AI视频创作平台 提供脚本生成 分镜建议 动态视频转化等功能 支持镜头编排 对白补充和音乐添加 [12] - 该平台接入可灵 LUMA等多个优质模型 支持效果对比 具备AI帮写脚本功能 解决创作中的叙事难题 [16] - 测试案例显示 平台能根据中文提示词生成高质量视频 如峨眉山猴子长城自拍场景 细节表现栩栩如生 具有超现实主义感 [14][17] - 平台提供多种场景模板 包括趣味二创 音乐MV 人物故事等 显示国内AI视频工具正逐步跟上国际发展节奏 [17] AI视频生成的应用场景拓展 - 在家居领域 Veo 3可实现家具自动组装展示 将毛坯房秒变北欧风格卧室 颠覆传统实体样板间模式 [1] - 在内容创作领域 模型支持ASMR解压视频 穿越vlog 童话改编 沙雕新闻等多种创新形式 [4][7] - 技术正在解锁IP创意新可能 如让经典童话角色走上现代街头 或制作具有新闻真实感的荒诞场景 [7][17]
专访与光同尘创始人陈发灵:AI重构影视行业生产逻辑 中国影视制作迎来“弯道超车”机遇
证券时报网· 2025-07-22 23:53
AI技术对影视行业的影响 - AI技术正在重构影视行业的生产逻辑,从工具应用转向流程重构,带来效率革命 [1] - AI视频生成技术可将传统需要两三个月制作周期、几十万元成本的商业视频缩短至一周完成,成本降至原来的十分之一 [1] - AI技术使导演可直接向AI下达指令生成多版镜头供选择,大幅提升视频制作效率并缩小创意落地偏差 [2] - AI视频制作周期相比传统制作周期大幅缩短,成本降至30%,1-2周可完成传统1-3个月周期的项目 [3] AI视频生成的具体应用案例 - 与光同尘推出的全球首部纯AI连载动画《果果星球》由5人团队在2周内完成角色创建、世界观设计和第一集成片 [3] - 影视广告业传统预算和周期分别为100万元和90天,用AI后降至30万元和20天 [3] - 动画番剧制作传统需要300万元和180天,AI可降至50万元和30天 [3] - 商业产品视频传统需要30天周期和30万元预算,AI可5天完成,成本3-5万元 [3] AI视频生成的技术特点与局限 - AI擅长处理大场景、大视效、动画动漫风格内容以及非常规创意 [6] - AI打破传统影视制作高门槛,让创意者通过AI工具实现内容落地 [6] - AI生成视频存在"恐怖谷效应",2024年采用"真人实拍+AI背景"折中方案 [6] - 2025年AI人物生成技术实现质的飞跃,可完全替代真人演员达到商用标准 [6] 中国影视行业的机遇 - AI视频生成可能为中国影视行业带来弯道超车的机会 [7] - 预计到2030年AI产出内容有望占市场总量三成以上,甚至半数互联网视频由AI完成 [7] - 2024年是AI视频应用发展元年,未来3-5年更多应用场景将逐步解锁 [7] 与光同尘的战略布局 - 公司定位成为具有全球影响力的AI影视集团,已在洛杉矶成立海外子公司Gleam [8] - 以东盟十国为突破口,在越南与当地产业链合作,在泰国与皇家学院共建AI影视实验室 [8] - 构建"产学研一体"闭环生态,将应用经验反哺教育,教育产能支撑创作,创作需求驱动研发 [8] - 与浙江大学、浙江传媒学院等高校合作开发课程体系,自主开发智能体平台"与光AI" [9]