阿里通义万相

搜索文档
视频生成大模型群雄逐鹿 却不温不火
中国经营报· 2025-06-27 16:17
国内视频大模型发展现状 - 国内视频生成大模型行业高开低走,目前处于不温不火状态,主要原因是用户更偏好真人博主出演的短视频而非AI生成内容 [2] - 腾讯混元、快手可灵、字节跳动即梦等国内视频大模型各自拥有独特技术优势:可灵擅长图像识别转换、即梦强于自然语言处理、混元结合两者优点并增加自定义选项 [2] - 可灵AI经过一年发展,在影视、短剧、广告、游戏、高校教育等行业实现深度实践探索 [2] 可灵AI商业化进展 - 截至2025年4月,可灵AI全球用户突破2200万,月活增长25倍,累计生成1.68亿个视频及3.44亿张图片 [3] - 可灵系列模型占据全球AI视频工具市场30.7%访问量份额,在文生视频、图生视频赛道稳居全球前二 [3] - 可灵2.0大师版显著提升语义响应、动态质量和画面美学,新增多模态视频编辑功能 [3] - 商业化变现至2025年2月累计营收超1亿元,2025年3月年化收入运行率突破1亿美元,4-5月单月付费均超1亿元 [4] - 专业用户(P端)付费订阅贡献70%营收,这类用户兼具传播属性和付费能力 [4] 国际竞争格局 - OpenAI Sora支持60秒高质量视频生成,采用创新"视频作为图像补码"方法,但对GPU算力要求高导致延迟较长 [5] - Meta Movie Gen擅长社交媒体视频样式,优化移动端性能并具有电影级审美,但动作连贯性有待提升 [5] - RunwayML Gen-4 Alpha专注10-20秒短视频高保真合成,提供丰富编辑功能,更受创意行业青睐 [6] 其他国内厂商技术特点 - 阿里通义万相2.1增强时空上下文建模,支持无限长1080P视频,首创中文文字视频生成功能 [6] - 腾讯混元可生成5秒内2K短视频,在文本一致性、运动质量和画面质量维度领先 [6] - 百度"文心一言"4.0的"一镜流影"插件主打批量化720p短视频生产,整合进大模型生态提高用户可及性 [7] - 字节跳动即梦AI可生成2分钟1080p视频,擅长复杂运动描绘,但内容互动量呈现高开低走趋势 [7] 行业未来发展趋势 - 视频大模型将向智能化、个性化方向发展,提升复杂内容生成能力和定制化服务水平 [8] - 5G等高速网络技术普及将改善视频传输体验,进一步推动行业应用 [8]
爱诗王长虎、谢旭璋:“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
晚点LatePost· 2025-06-06 19:05
公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立,团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域,同时开发底层模型与to C应用产品,全球用户超6000万,是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万,国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径:聚焦普通人需求,通过模板化设计(如毒液变身、科目三跳舞等)实现零Prompt操作,用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代:模型V3将生成成功率提升至近100%,V3.5将等待时间压缩至10秒内,累计更新7版模型 [6][9] - 生成效率:V4模型实现5-7秒生成5秒视频,正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例:毒液变身模板全球播放量超10亿次,咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展:订阅收入已覆盖绝大部分成本,现金流接近转正 [7] - 全球化布局:视频内容天然跨语言传播,高GDP国家贡献主要收入,暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队:国内为爱诗、快手可灵、MiniMax海螺,海外Google表现突出,认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑:视频行业持续分化(长/短视频、直播等),新内容形态需增量供给,非存量替代 [10] - 技术壁垒:毒液模板半年未被复现,依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折:2023年6月All in视频生成,抓住当时行业非共识机会 [23][24] - 资源分配:Sora发布后坚持原定技术路线,未盲目追加资源追赶,最终验证模型实效优于Sora [26] - 双引擎驱动:前期以模型技术为核心,后期产品与模型协同进化,产品需求反哺技术方向 [20] 行业趋势 - 技术架构:主流仍为DiT,自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命:实时生成将改变视频线性叙事,用户可动态改变剧情走向,视频与游戏界限模糊化 [17][18] - 价值认知:视频生成领域整体被低估,较之大语言模型更少舆论关注但实际商业落地更快 [24][25]
快手可灵战略提级,视频大模型混战时代来了?
搜狐财经· 2025-05-15 06:27
AI行业现状与趋势 - AI技术已深度渗透各行业,百度将DeepSeek整合进搜索,腾讯将大模型应用于微信,语言大模型成为多领域基础设施[1] - 当前AI革命正经历从图文交互到视频交互的升级,视频大模型成为新一轮技术竞争焦点[3][5] - 移动互联网时代的流量革命被短视频平台主导,AI时代可能重塑流量分配规则[2][24] 视频大模型竞争格局 巨头布局 - 腾讯混元视频大模型和阿里通义万相代表巨头入场,战略目的是抢占入口并为未来业务储备技术[5][6] - 巨头采取"先布局后跟进"策略,等待技术路线明确后快速投入资源[6][7] 专业AI公司 - 商汤科技V-ME和科大讯飞讯飞绘镜受资源限制,主要聚焦主营业务,在视频大模型领域处于陪跑状态[8] 短视频平台 快手策略 - 成立可灵AI事业部并提升至最高战略级别,2月累计营收超1亿元,前三月营收超2024年总和[11] - 定位生产力工具,可灵AI2.0能力部分超越Sora,已服务2200万用户和1.5万企业客户[11][14] - 采用微软式商业化路径,优先服务专业创作者(professional creators)[12][13] 抖音策略 - 组建AGI研究团队并发布Seaweed-7B模型,25秒生成高质量视频,侧重技术突破[16] - 采取"游戏运营逻辑",通过免费策略积累用户数据,计划用1%重度用户实现商业化[17][18] - 依托现有流量优势复制成功路径,但产品效果目前逊于快手[16][21] 视频大模型应用前景 专业化方向 - 可能颠覆影视行业成本结构,爱奇艺2024年内容成本达157.1亿元占总支出的72%[32][34] - 好莱坞级别制作如《哪吒2》《流浪地球》面临高成本问题,AI或成解决方案[34][35] - 技术成熟后可能实现"所述即所见",彻底改变视觉内容生产方式[29][30] 大众化方向 - 百度"秒哒"证明自然语言编程可行性,视频大模型或将降低创作门槛引发内容井喷[36] - 历史数据显示内容形态迭代会降低单位流量成本,视频大模型可能催生新商业模式[36][38] - AI将改变"码字-代码-拍摄"三大信息创造方式,提升视觉内容生产效率[40][42] 行业潜在变数 - 当前格局类似移动互联网初期,可能出现类似DeepSeek的颠覆者改变竞争态势[43] - 金融领域幻方量化孵化DeepSeek的成功案例显示,效率导向领域更易产生技术突破[43] - 视频大模型发展可能推动互联网向元宇宙时代演进,但创意环节仍需人类主导[43]
全球AI周报:微信推出首个AI助手“元宝”,OpenAI发布o3满血版和o4mini-20250421
天风证券· 2025-04-21 22:49
报告行业投资评级 未提及 报告的核心观点 - OpenAI及国内模型大厂相继发布最新模型,模型在COT思维链基础上持续优化,本轮OpenAI更新增强模型多模态思考能力,拓展AI应用场景广度,提升模型在复杂任务中的实用性与落地深度;近期中美科技巨头密集布局MCP协议,有望统一行业标准,提升行业整体效率,推动整体AI生态完善;2025年有望成为AI Agent商业化元年,看好模型能力、生态构建与产品落地能力的AI应用企业迎来估值重估 [4] 根据相关目录分别进行总结 全球AI产品更新 - 微信推出AI助手“元宝”,集成混元和DeepSeek双模引擎,无缝衔接微信生态,支持解析公众号文章、图片和文档(100M以内),提供智能互动和日常陪伴功能,初始语气活泼逗趣可调节 [4] - 快手“灵感成真”发布会推出可灵AI 2.0,宣布基座模型升级,面向全球发布可灵2.0视频生成模型与可图2.0图像生成模型,两款模型在团队内部评测中居业内首位,可图2.0领先Midjourney V7等行业头部模型 [4] - 字节跳动旗下火山引擎发布豆包1.5深度思考模型,对文生图模型3.0、视觉理解模型进行升级,推出OS Agent解决方案及垂类应用Agent(国内首个AI IDE——Trae) [4] - 阿里通义万相Wan2.1视频生成大模型正式开源,在处理复杂运动、还原真实物理规律、提升影视质感、优化指令遵循上优势显著 [4] - OpenAI线上发布o3和o4 - mini,在AIME、Codeforces等测试中全面超越前代,图像思维链首次融入,同步开源轻量级终端编码Agent——Codex CLI,启动百万美元支持计划 [4] - 谷歌发布首款混合推理模型Gemini 2.5 Flash,引入“思考预算”,可自定义推理深度控制思考模式,在复杂任务中表现更优异 [4] 重点公司业绩情况 - 台积电2025年Q1营收255.3亿美元,同比+35.3%,毛利率58.8%,略超越彭博一致预期;预计2025年AI加速器收入翻倍,2024年至2029年AI加速器营收将实现约45%复合增长率 [4] - 奈飞一季度营业收入105.42亿美元,同比+12.51%,每股盈利6.61美元,大幅超出彭博一致预期;预计2025年第二季度收入增长15%,全年广告营收有望大致翻倍 [4] 投资建议 - 建议关注中国AI企业腾讯控股、阿里巴巴、快手、美团,因其本土AI技术能力持续提升,互联网生态优势巨大,且互联网板块受外部政策影响相对小、宏观关联度相对低,短期估值或超跌,基本面短期维持相对强势 [4] - 建议关注海外AI企业英伟达、微软、特斯拉、Roblox、Netflix、Shopify、赛富时、多邻国、ROBINHOOD、APPLOVIN,近期美股波动加剧但AI技术迭代节奏依旧快速,本周AI产品能力进一步升级,市场关注点转向商业化兑现与财务表现,叠加财报季来临,需关注AI相关标的财务端表现及AI落地商业化进展动态,同时关注互联网娱乐板块在AI赋能下的收入表现与用户增长情况 [4] 全球AI动态更新 中国AI动态更新 - 微信推出AI助手“元宝”,搭载混元和DeepSeek双模引擎,无缝衔接微信生态,核心功能包括解析公众号文章、图片和文档(100M以内),进行智能互动和日常陪伴互动,针对微信场景优化,确保用户数据仅在本地处理,暂时不支持聊天问答之外的复杂功能,初始语气活泼逗趣可调节 [11] - 快手举办“灵感成真”可灵AI 2.0模型发布会,宣布基座模型升级,面向全球发布可灵2.0视频生成模型与可图2.0图像生成模型,可灵AI完成超20次迭代,全球用户规模突破2200万,月活用户量过去10个月增长25倍,累计生成超1.68亿个视频及3.44亿张图片,两款模型在团队内部评测中居业内首位,可灵2.0大师版升级可控生成与编辑能力,上线多模态视频编辑功能,可图2.0领先Midjourney V7等行业头部模型 [16] - 字节跳动旗下火山引擎发布豆包1.5深度思考模型,对文生图模型3.0、视觉理解模型进行升级,推出OS Agent解决方案及垂类应用Agent(国内首个AI IDE——Trae);豆包在专业领域推理能力测试中达或接近全球第一梯队水平,文生图模型Seedream3.0跻身全球第一梯队,视觉理解模型实现突破;Trae将AI与集成开发环境深度融合,具有交付化、智能化、协作化三大核心特质 [21] - 阿里通义万相Wan2.1视频生成大模型正式开源,在处理复杂运动、还原真实物理规律、提升影视质感、优化指令遵循上优势显著,支持中英文文字特效生成,在权威评测集VBench中总分位居榜首;基于主流视频DiT结构,利用Full Attention机制建模长时程时空依赖,噪声采样采用线性噪声轨迹Flow Matching方法,通过多项技术创新提升生成能力,已在GitHub、Hugging Face、魔搭社区开源,支持多种主流框架 [25] 海外AI动态更新 - OpenAI线上直播发布o3和o4 - mini模型,在AIME、Codeforces等测试中全面超越前代,首次在思维链中用图像进行推理,实现视觉感知重大突破,o3在编程、数学等领域表现优异,o4 - mini优化快速、低成本推理;推出轻量级终端编码Agent——Codex CLI,已在GitHub开源,启动100万美元计划支持相关项目并接受2.5万美元API积分资助申请;预计本月陆续发布DeepSeek R2、Anthropic的Claude 4以及马斯克剧透的「GroK - 3.5」 [29] - 谷歌发布Gemini 2.5 Flash,引入“思考预算”,可自定义推理深度控制思考模式,关闭思考模式时成本下降600%,开启后性能提升,在复杂任务中表现更优异,以超高性价比领跑,兼具最优性能和极低成本优势;在多项基准测试中成绩优异,大模型排行榜上位居第二,在数学等基准测试中碾压Claude 3.7 Sonnet,与o4 - mini相当,在模型输入/输出价格上更具性价比,在LMArena其他评估项目中多次夺冠 [35] 重点公司业绩情况 - 台积电2025年Q1营收255.3亿美元,环比-5.1%,略不及彭博一致预期;毛利率58.8%,环比-0.2 ppt;营业利润率48.5%,环比-0.5 ppt;净资产收益率32.7%,环比-3.5ppts;3纳米占晶圆收入22%,5纳米占36%,7纳米占15%,7纳米及以下先进制程技术占营收73%;高性能计算(HPC)业务占一季度营收59%,环比+7%;智能手机业务占28%,环比-22%;收入受智能手机市场季节性回落影响,部分被AI相关需求增长抵消;预计2025年AI加速器营收翻倍,2024年至2029年AI加速器营收将实现约45%复合增长率;全力扩大CoWoS封装产能,计划在2025年实现翻倍;预计第二季度收入284亿至292亿美元,该季度毛利率57%至59%,营业利润率47%至49% [38] - 奈飞一季度营业收入105.42亿美元,略超出预期,同比+12.51%;每股盈利6.61美元,大幅超出预期;营业利润33.47亿美元,同比27.12%;预计2025年第二季度收入增长15%,全年广告营收有望大致翻倍;预计全年运营利润率维持在29%,下半年因热门节目回归内容制作成本攀升,加上销售和营销费用增加,运营利润率将下滑;在美国和加拿大推出的低成本广告套餐能维持用户对娱乐的强劲需求,增强业务韧性 [38]
速递|阿里通义万相Wan2.1,向全球免费开放AI视频生成模型
Z Potentials· 2025-02-27 12:09
图片来源:阿里巴巴 阿里正在开源其 Wan2.1 系列中的四个模型,这是该公司基础 AI 模型的最新版本,能够根据文本和图像输入生成图像和视频。 开源与 OpenAI 等创建的专 有模型形成对比。 自 DeepSeek 在一月份震撼全球市场以来,开源 AI 技术便成为了焦点。阿里巴巴于2月26日周三表示,已将其视频生成人工智能模型免费开放使用,进一 步加剧了与 OpenAI 等竞争对手的竞争。 图片来源:阿里云 其 Wan2.1 系列模型将通过阿里云的 Model Scope 和 Hugging Face (一个庞大的 AI 模型库)提供,全球的学术界、研究人员和商业机构均可访问。 阿里巴巴在香港上市的股票收盘上涨近 5% 。 目前围绕 AI 模型是否会商品化的问题正展开激烈讨论。 中国企业尤其积极推动开源模型的发展,阿里巴巴和 DeepSeek 的模型如今跻身全球最受欢迎之列。阿里巴巴于 2023 年 8 月发布了其首个开源模型,而 Meta 在美国则以其 Llama 模型引领开源潮流。 阿里巴巴的股票今年表现强劲,其香港上市股票截至 2025 年已上涨 66%。 本文翻译自: CNBC https://w ...