Workflow
AI视频生成
icon
搜索文档
赛道Hyper | 阿里开源通义万相Wan2.2:突破与局限
华尔街见闻· 2025-08-02 09:37
技术突破 - 阿里巴巴开源电影级视频生成模型通义万相Wan2.2,包含文生视频、图生视频和统一视频生成三款模型,其中文生视频和图生视频模型首次采用MoE架构 [1] - MoE架构由高噪声专家模型和低噪专家模型组成,分别负责视频整体布局和细节完善,总参数量27B,激活参数量14B,同参数规模下可节省约50%计算资源 [1][4] - 激活参数占比高达51.85%,远超行业水平(如GLM-4.5激活占比仅9%),体现公司在模型架构设计与优化方面的技术积累 [6][7] 技术架构创新 - MoE架构通过动态选择专家模型参与推理,提高计算效率和性能,特别适合大型神经网络训练和推理 [2] - 架构设计针对视频生成瓶颈,将模型拆分为处理整体布局的高噪声专家模型和专注细节的低噪专家模型,形成分工明确机制 [2] - 需要精准把握视频生成数据流向和处理逻辑,以及复杂的算法设计和大量实验调试才能实现高效参数激活策略 [7] 行业影响 - 公司选择开源策略,在GitHub、HuggingFace等平台提供模型代码,降低研究门槛并可能加速技术场景落地 [8] - 此举可能加剧视频生成技术迭代速度,因其他企业可基于开源技术进行优化升级 [8] - 代表中国企业在全球AI视频生成领域的重要发声,与国际竞争者形成差异化路径(资源效率提升vs时长优势) [10][11] 应用场景 - 当前5秒高清视频生成能力更适合创意工具场景,如影视前期策划可视化、广告短视频初稿制作 [9] - 存在明显局限性:复杂叙事需人工拼接,与电影级生产需求有差距,且美学控制依赖用户专业提示词 [9] - 未来需解决长时序下的逻辑连贯性、画面一致性等问题才能实现更广泛应用 [9][12] 行业趋势 - 视频生成技术处于快速进化阶段,从文本到视频的跨越需要算力、数据、算法综合突破 [12] - 技术价值在于提供新选择而非颠覆行业,未来渗透更多领域需突破技术瓶颈并验证商业模式 [12] - 企业面临平衡技术研发投入与商业回报的挑战,这比单纯技术突破更复杂 [12]
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
中金点睛· 2025-08-01 08:09
技术路径演进 - 2024年OpenAI发布Sora后视频生成技术路径收敛至DiT(Diffusion Transformer)架构,取代了此前图像拼接、自回归扩散等混合路径[2][4] - DiT架构通过时空注意力联合建模实现89%的生成一致性,支持60秒长视频生成和多分辨率输入,物理模拟能力显著提升[7][11] - 仍存在自回归路径分歧,OpenAI GPT-4o和Sand AI采用自回归模型,认为其对长时间序列建模更合适[14] - 技术发展将沿两个方向延伸:端到端多模态大模型(如Google Gemini)和多模态理解生成统一架构(如DeepSeek Janus-pro)[16][17] 市场空间与格局 - 2024年全球AI视频生成市场规模约6亿美元,中期P端+B端市场空间有望达100亿美元[3][22] - P端市场中性测算空间32亿美元,基于1.6亿国内创作者和2亿海外创作者的付费渗透率假设[23][24] - B端市场中性测算空间94亿美元,主要来自广告、电商视频和影视行业的AI渗透[25][26] - 2025年竞争格局集中,快手可灵以20%市占率领先,Runway、海螺、爱诗等中国厂商占据主要份额[27][28] 中国厂商表现 - 中国公司在模型能力和产品力上超越海外,快手可灵2025年ARR超1.5亿美元全球领先[3][22] - 技术榜单显示字节Seedance、MiniMax海螺、快手可灵在文生视频和图生视频排名靠前[39][40][41] - 产品定位分化:可灵、海螺专注P端/B端专业用户;爱诗PixVerse、字节即梦主攻C端低门槛市场[45][48] - 商业模式以订阅制为主,高质量模式单秒定价进入0.4-2元区间,已触及创作者价格不敏感阈值[50][51] 技术应用与影响 - 视频生成已初步渗透影视、电商、广告场景,顶级动画电影制作成本从200万美元/分钟降至300美元/分钟[22][31] - 生成时长10秒内已满足多数需求,核心矛盾转向角色一致性和提示词理解能力[38] - 多模态技术重构内容生产流程,催生Prompt导演、审美把关人等新岗位,传统视频剪辑等职位面临转型[31] - 开源生态加速发展,快手Orthus、通义万相等开源模型推动行业技术民主化[19][37]
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
量子位· 2025-07-29 08:40
通义万相Wan2.2模型技术突破 - 阿里开源新一代视频生成模型通义万相Wan2.2,包含文生视频、图生视频和混合视频生成功能[4] - 首次在视频生成模型中实现MoE架构,包含Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两个版本,可生成电影级质感视频[5] - 5B版本支持消费级显卡部署,是目前最快的24fps、720P基础模型[5] - 相比前代Wan2.1,图像训练数据增加65.6%,视频数据增加83.2%[31] 模型架构创新 - 采用MoE架构解决视频生成模型参数扩展难题,通过拆分高噪/低噪专家模型处理不同去噪阶段[26][28] - 引入900去噪时间步划分,高噪模型负责主体结构构建,低噪模型处理细节生成[28] - 自研高压缩比3D VAE结构实现16x16x4压缩比,降低显存占用同时保持重建质量[34][35] - 验证损失(Validation loss)达到行业最低水平,视频生成质量最优[29] 电影级美学控制系统 - 整合光影、色彩、镜头语言三大电影元素,提供12个美学维度和60+专业参数控制[37][38] - 支持精确调控光线时段/类型/强度/方向、构图法、拍摄角度、色彩情绪等[38][40][42] - 用户仅需添加美学关键词前缀即可自动生成专业导演质感的画面[46] 复杂运动与交互能力 - 构建面部原子动作系统,可生成微表情如"强忍泪水时的嘴唇颤抖"[47] - 优化手部动作系统,支持从基础操作到专业精密动作的生成[48] - 提升多人交互物理合理性,避免角色穿模现象[49] - 增强高强度运动(体操/滑雪等)的稳定性,减少动作失真[50] 产品生态与行业影响 - 通义万相系列累计下载量超4亿次,衍生模型超14万,全球排名第一[54] - 配套推出"万相妙思+"创作活动,设置兴趣组(5-15秒)和专业组(30秒+)赛道[54] - 模型已上线通义万相平台及GitHub/HuggingFace/魔搭社区[18][56] - 该技术突破可能重塑电影工业生产流程[55]
瑞银证券熊玮:中企在AI视频生成模型崭露头角
证券时报网· 2025-07-25 19:48
云和广告领域AI变现 - 云和广告是AI变现最明确的两大领域,面向企业的AI服务具备更强变现能力[1][2] - 一季度中国主要云服务商AI相关收入占比达10%-20%,2025年市场预期上升6-13个百分点[2] - AI技术改进使头部媒体平台广告点击率、转化率和eCPM提升5%-10%[2] 企业AI智能体发展 - 企业级智能体及垂直领域应用推进领先,变现模式成熟(订阅/佣金/SaaS)[3] - 中国企业软件潜在市场规模超1.6万亿元,智能体可提升工作流程效率[3] - 垂直领域智能体因ROI可见度高,变现早于通用智能体[4] 通用消费类智能体现状 - 通用消费类智能体功能有限,潜在市场空间3.2万亿元但变现进展渐进[4] - 头部互联网公司持续探索嵌入式/独立智能体以保持用户流量竞争力[4] AI视频生成领域 - AI视频生成可降低传统制作成本至0.1%,重塑电影/广告/游戏内容行业[5][6] - 中国公司在视频生成模型竞争中领先,受益于短视频平台内容库和人才储备[6] - 领先模型在速度、运动一致性等指标各具优势,当前受限于剪辑长度和可控性[6]
A股跌破3600点,什么情况?
搜狐财经· 2025-07-25 15:57
市场整体表现 - 三大指数均小幅下跌 沪指跌0.33%至3600点下方 深指跌0.22% 创业板指跌0.23% [1] - 市场呈现轮动态势 AI概念股反弹 华为算力活跃 医疗器械走强 海南自贸与超级水电概念股跌幅居前 [1] - 3600点上方抛压沉重 整数关口存在心理压力 历史突破尝试均未成功 [1] - 市场分化明显 热点板块回调需求增强 权重股调整 二季度业绩担忧情绪升温 [1] AI概念板块 - AI视频生成全球规模2024年预计6.15亿美元 2025年达7.17亿美元(同比+17%) 2032年预计25.63亿美元(2025-2032年CAGR 20%) [2] - 下游应用以市场营销广告为主 社交媒体领域增速最快 [2] 华为算力板块 - 世界人工智能大会将首次线下展示昇腾384超节点真机 该技术实现384卡高速总线互联 [2] 医疗器械板块 - "反内卷"政策与集采规则优化推动估值修复 未落地赛道降幅或缓和 已落地赛道可能温和续约 [2] 白酒板块 - 35度500ml飞天茅台散瓶价跌至1870元/瓶 原箱装价跌至1920元/瓶 价格未企稳拖累板块表现 [3] - 前期上涨源于资金轮动 红利股资金流入白酒板块 [2]
谷歌Veo 3新玩法刷屏!国内同款神器也能复制
AI研究所· 2025-07-24 18:09
谷歌Veo 3视频生成模型的热潮 - 谷歌Veo 3视频生成模型近期在社交媒体上引发热潮 一条展示IKEA家具自动组装的视频播放量破百万 TikTok博主发布的魔性切草莓视频播放量达2000万 [1][4] - Veo 3的创意应用广泛 包括穿越vlog 童话角色现代街头演绎 沙雕新闻制作等 其中战地记者赤壁报道和曹操私生活八卦等内容极具创意张力 [4][7] - 该模型已面向70多个市场的AI Pro和Ultra用户开放 但存在生成额度限制 Pro用户每天仅3个生成额度 视频长度限制在3-8秒 [4] - 这股热潮推动Google DeepMind总访问量在4-5月增长162% 谷歌CEO表示用户已创建超过4000万视频 [9][11] 国内AI视频工具的发展 - 讯飞绘镜作为科大讯飞推出的AI视频创作平台 提供脚本生成 分镜建议 动态视频转化等功能 支持镜头编排 对白补充和音乐添加 [12] - 该平台接入可灵 LUMA等多个优质模型 支持效果对比 具备AI帮写脚本功能 解决创作中的叙事难题 [16] - 测试案例显示 平台能根据中文提示词生成高质量视频 如峨眉山猴子长城自拍场景 细节表现栩栩如生 具有超现实主义感 [14][17] - 平台提供多种场景模板 包括趣味二创 音乐MV 人物故事等 显示国内AI视频工具正逐步跟上国际发展节奏 [17] AI视频生成的应用场景拓展 - 在家居领域 Veo 3可实现家具自动组装展示 将毛坯房秒变北欧风格卧室 颠覆传统实体样板间模式 [1] - 在内容创作领域 模型支持ASMR解压视频 穿越vlog 童话改编 沙雕新闻等多种创新形式 [4][7] - 技术正在解锁IP创意新可能 如让经典童话角色走上现代街头 或制作具有新闻真实感的荒诞场景 [7][17]
专访与光同尘创始人陈发灵:AI重构影视行业生产逻辑 中国影视制作迎来“弯道超车”机遇
证券时报网· 2025-07-22 23:53
AI技术对影视行业的影响 - AI技术正在重构影视行业的生产逻辑,从工具应用转向流程重构,带来效率革命 [1] - AI视频生成技术可将传统需要两三个月制作周期、几十万元成本的商业视频缩短至一周完成,成本降至原来的十分之一 [1] - AI技术使导演可直接向AI下达指令生成多版镜头供选择,大幅提升视频制作效率并缩小创意落地偏差 [2] - AI视频制作周期相比传统制作周期大幅缩短,成本降至30%,1-2周可完成传统1-3个月周期的项目 [3] AI视频生成的具体应用案例 - 与光同尘推出的全球首部纯AI连载动画《果果星球》由5人团队在2周内完成角色创建、世界观设计和第一集成片 [3] - 影视广告业传统预算和周期分别为100万元和90天,用AI后降至30万元和20天 [3] - 动画番剧制作传统需要300万元和180天,AI可降至50万元和30天 [3] - 商业产品视频传统需要30天周期和30万元预算,AI可5天完成,成本3-5万元 [3] AI视频生成的技术特点与局限 - AI擅长处理大场景、大视效、动画动漫风格内容以及非常规创意 [6] - AI打破传统影视制作高门槛,让创意者通过AI工具实现内容落地 [6] - AI生成视频存在"恐怖谷效应",2024年采用"真人实拍+AI背景"折中方案 [6] - 2025年AI人物生成技术实现质的飞跃,可完全替代真人演员达到商用标准 [6] 中国影视行业的机遇 - AI视频生成可能为中国影视行业带来弯道超车的机会 [7] - 预计到2030年AI产出内容有望占市场总量三成以上,甚至半数互联网视频由AI完成 [7] - 2024年是AI视频应用发展元年,未来3-5年更多应用场景将逐步解锁 [7] 与光同尘的战略布局 - 公司定位成为具有全球影响力的AI影视集团,已在洛杉矶成立海外子公司Gleam [8] - 以东盟十国为突破口,在越南与当地产业链合作,在泰国与皇家学院共建AI影视实验室 [8] - 构建"产学研一体"闭环生态,将应用经验反哺教育,教育产能支撑创作,创作需求驱动研发 [8] - 与浙江大学、浙江传媒学院等高校合作开发课程体系,自主开发智能体平台"与光AI" [9]
世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台
机器之心· 2025-07-19 11:13
技术突破 - Decart发布全球首个实时无时长限制的扩散视频模型MirageLSD,支持任意视频流输入并实现40毫秒超低延迟转换[3] - 该技术突破视频生成两大瓶颈:实现无限长视频生成(突破传统模型20-30秒质量衰减限制)和零延迟交互(响应速度较前代提升16倍至24帧/秒)[19][20][28] - 核心技术采用实时流扩散(LSD)架构,通过逐帧去噪、历史增强方法及因果自回归结构保持时间连贯性[18][25][32] 应用场景 - 实时视频风格转换:可将摄像头画面/游戏画面实时转化为任意风格世界,支持文本提示控制[4][7][12] - 影视创作革新:实现自导自演实时电影,AI同步完成布景/风格化/剪辑[8] - 游戏开发提效:用基础几何体编码机制后由AI自动生成精美贴图,30分钟完成游戏原型开发[9][15] - AR/VR增强:支持视频会议虚拟背景、实时虚拟试衣及AR眼镜现实卡通化功能[11][12][13] 技术原理 - 采用Diffusion Forcing技术逐帧去噪,通过历史帧扰动训练增强模型对误差累积的鲁棒性[25] - 定制CUDA mega kernels和模型剪枝技术优化计算效率,使单帧生成时间压缩至40毫秒内[31] - 因果反馈机制实时融合历史帧/输入帧/用户提示,实现动态内容适应与零延迟响应[33][34][35] 发展潜力 - 前特斯拉AI总监Andrej Karpathy已作为天使投资人参与,认为技术具备通用性[14] - 公司计划升级面部一致性、语音控制、物体精准操控功能,并集成流媒体/游戏/视频通话场景[16] - 当前局限包括长期记忆窗口不足、极端风格下几何失真等问题,未来拟通过结构化控制信号提升编辑精度[36][37][38]
靠视频大模型赚钱,还是个梦
投中网· 2025-07-18 14:10
行业动态 - 2025年AI视频生成赛道成为行业最热门领域,国内大厂如快手、字节、阿里、腾讯等密集推出迭代产品,包括快手可灵2.0、字节即梦3.0、阿里万相2.1等 [4] - 行业技术快速进步,语义响应、画面质量、动态质量等指标显著提升,商业化前景显现,如快手可灵AI 2025年Q1收入超1.5亿元,带动股价上涨30% [4] - 全球竞争格局中,快手可灵系列使用份额达30%,超越Runway(23.6%)和Veo-2(16.6%),但谷歌Veo 3凭借音画同步技术重新定义行业标准 [8][10] 公司竞争 - 快手可灵AI通过快速产品化抢占先机,上线一年用户达2200万,早期技术优势明显(1080P清晰度),但近期被字节即梦等竞品追赶 [8][10] - 字节即梦AI通过Seaweed和PixelDance模型迭代实现反超,即梦App下载量一度登顶免费榜,月活用户893万(快手可灵180万),积分激励策略更激进 [10][12][13] - 创业公司表现突出,如生数科技Vidu 2.0、爱诗科技PixVerse(月收入千万元级),形成与大厂差异化竞争 [9][5] 技术瓶颈 - 视频生成面临三大限制:架构局限(最长10秒片段)、算力不足(数据量指数级增长)、高质量训练数据稀缺,导致技术进入平台期 [19] - 关键痛点包括输出一致性差(相同输入产生不同结果)、运动镜头生成困难(仅能制作"动态PPT"),制约商业化应用 [16][17] - 厂商转向优化用户体验,如可灵3.0拓展多模态支持,即梦3.0强化多模态生成能力,竞争焦点从技术突破转向工作流优化 [20] 商业化探索 - 主流商业模式为免费+会员制,字节即梦连续包月69元/1080积分,快手可灵66元/660积分,付费群体集中于影视、广告等专业创作者 [12][13] - 成本优势与局限并存:AI视频生成成本(300美元/分钟)远低于传统动画(200万美元/分钟),但试错成本高导致实际支出不可控 [14][17] - 短剧领域试水案例增多,但投资方态度谨慎(单项目约20万元),市场验证尚未完成,如《上海奇境》《三星堆》票房表现平平 [18] 生态布局 - 字节依托抖音/TikTok流量和火山引擎技术协同,强化即梦在内容分发、剧本创作等环节的生态优势 [21][22] - 快手通过创作大赛(如《末日进行时》《太阳坠落之时》)挖掘优质创作者,结合资源扶持构建内容生态 [22]
AI Video Is Eating The World,创作者、创业者的机会在哪?
Founder Park· 2025-07-17 19:25
AI视频生成行业趋势 - AI视频生成技术正在重塑短视频创作生态,大量低门槛AI生成内容(如切水果、宠物小剧场)催生了全新的去中心化IP商业化模式,首个被Netflix收购的AI原生IP可能即将出现[2] - TikTok、Instagram等平台90%的短视频内容已由AI生成,意大利无脑角色等去中心化IP宇宙形成规模效应,相关周边商品(玩具、T恤)已实现商业化[8][14] - 爆款内容公式为「熟悉IP+新奇感」,利用《星球大战》风暴兵等现有IP可快速获取用户注意力,同时原创奇特内容(如大猩猩Kim)也能通过强叙事性走红[25][26] 技术应用与创作工具 - Veo3等视频模型降低创作门槛,但存在角色一致性差、无法基于图像生成视频等技术限制,导致创作者需反复生成(单条视频平均尝试7-8次)[21][32] - 开源工具ComfyUI在风格转换、角色替换等复杂工作流中仍具优势,但基础模型功能正逐步替代其应用场景[41][42] - 多模型赋能平台(如Krea AI、Fal.ai)因简化操作流程而受青睐,相比Veo3的复杂订阅体系更符合创作者需求[35][36] 商业化变现路径 - 变现方式包括平台流量分成(TikTok每百万播放约20美元)、IP周边销售、虚拟网红带货及课程咨询,但高昂生成成本导致ROI不稳定[30][32][33] - AI虚拟网红经济规模预计增长10倍,创作者通过订阅制变现收入远超传统广告分成[29] - 内容套利现象显著,爆款视频在跨平台传播时有1-2天窗口期,TikTok的ASMR内容与Facebook系动物跳水视频存在平台用户差异[49][50] 内容生态创新 - 「提示理论」引发AI角色存在主义思考,生成角色探讨自身被提示词控制的命运成为新内容类型[43][44] - 二次创作内容(如粉丝自制星战角色跳水视频)流量表现不输原生短视频,形成去中心化创作社区[20][27] - AI家具设计等跨界商业化案例涌现,如大猩猩椅子从概念到实体商品快速落地[49]