Workflow
通义万相
icon
搜索文档
AI应用货币化先锋:GPT5前瞻之多模态
民生证券· 2025-07-29 14:41
报告行业投资评级 - 推荐 维持评级 [4] 报告的核心观点 - 当前全球多模态AI正朝"多模态通才"转变,智能化水平与能力范围不断扩大,多模态AI应用或成AI大模型商业化变现前锋 [3][59] - 美图、快手等多模态AI产品体现出较强AI货币化能力,建议关注多模态AI相关标的以及受益于多模态AI发展的AI应用、AI算力等相关标的 [3][59] 根据相关目录分别进行总结 1 GPT5发布在即,有望挑战多模态AI新高度 1.1 多模态AI的新基准:"多模态通才" - 2025年5月,十所顶尖高校联合发布General - Level评估框架和General - Bench基准数据集,用五级分类制明确多模态通才模型能力标准 [9] - General - Level建立五个层级评价水平,当前全球多模态模型仍处于L4阶段,考察体系分四个方向:模态理解和同时进行多模态理解和生成、支持更广泛的模态、支持各种任务和范式、多模态智能体与多模态基础模型 [12] - L1 - L5评价分别要求:L1为专家型模型;L2为支持多任务的通才;L3为出现任务级协同的通才;L4为范式级协同的通才;L5为模态级全协同的通才,目前多数多模态通用智能体受架构限制,要达L5需实现所有模态间协同 [15][16] 1.2 科技巨头纷纷押注多模态AI - 腾讯混元3D世界模型是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,核心是语意层次化3D场景表征及生成算法,还披露一系列开源计划 [18] - 通义万相文生视频和图生视频模型是业界首个用MoE架构的视频生成模型,总参数量27B,激活参数14B,首创电影美学控制系统,2.2版本在多方面有显著提升,节省约50%计算资源消耗 [21] - 截至2025年3月31日,Figma全球有45万付费客户,总留存率96%,净美元留存率132%,年度付费超1万美元的付费客户达11107家,2025年有望推出Figma Make、Figma Draw、Figma Sites和Figma Buzz四款全新AI产品 [24][25][28] - 字节在Seed1.6模型系列探索Adaptive CoT技术,取得模型效果和推理性能平衡,Seed1.6 - Thinking在复杂文本场景推理能力和视觉推理能力提升 [26] 2 重点公司多模态AI业务梳理 2.1 美图:RoboNeo定义AIGC Agent新范式 - 美图推出RoboNeo,是集多种功能于一体的智能AI Agent,具备美学审美与落地执行力,可免费使用,覆盖品牌设计到电商物料输出全流程,支持一站式网页搭建 [29][31] 2.2 快手:可灵AI货币化进程亮眼 - 快手可灵2.0模型在多维度保持全球领先,发布全新交互理念Multi - modal Visual Language(MVL) [34] - 可灵在2025Q1实现1亿美元ARR,伴随AI功能上新和全球创作者计划,有望迎来付费用户增长和ARUP提升,加快AI货币化进度 [35] 2.3 万兴科技:天幕2.0+超媒Agent切入蓝海市场 - 万兴天幕2.0大模型在华为云加持下由千人团队打造,实现音视频垂类原子能力跃升,秉持"创意平权"理念,助力创作者生成音视频内容 [37] - 万兴超媒Agent依托天幕2.0打造,解决传统创作模式问题,具备全链路视频编辑能力、行业Know - How知识库沉淀、大模型与工具链深度耦合三大特点 [40] 2.4 合合信息:扫描全能王的能力范围加速扩展 - 合合信息"AI鉴伪"技术实现从静态图像到多模态信息鉴伪跨越,人脸鉴伪模型、AIGC图像鉴别技术、TextIn通用篡改检测平台有相应优势 [42] - 合合信息推出业内首个AI Agent跨平台云资源智能管理终端Chaterm,核心代码全面开源 [44] 2.5 福昕软件:智能文档解决方案加速落地 - 福昕提出"大模型+领域知识+工程方法"融合路径,构建"人工智能+政法"应用范式,智能文档技术让检察官聚焦核心价值环节 [48] - 福昕智能文档解决方案构建全链条能力,为检察机关提供数据治理能力,研发三大核心产品,与北京市人民检察院合作打造解决方案 [51] 2.6 其他多模态AI应用 - 北森AI面试官依靠人才评估与面试方法论沉淀和AI技术融合,有"专业评估逻辑 + 大模型能力"双重优势,岗位胜任力模型和AI技术与场景结合方面有特点 [53] - 粉笔AI面试点评是融合AI技术的智能化面试学习工具,提供沉浸式模拟训练、精准智能点评及个性化答题优化 [55] 3 投资建议 - 建议关注多模态AI相关标的:美图、快手、万兴科技、合合信息、福昕软件等;同时关注受益于多模态AI发展的AI应用、AI算力等相关标的 [3][59]
【招银研究|行业深度】AI应用之传媒——从PGC、UGC到AIGC ,内容产业如何变革?
招商银行研究· 2025-07-24 17:10
AIGC视频技术发展现状 - 2024年2月OpenAI发布的Sora成为视频生成领域的标志性突破,采用DiT(扩散模型+Transformer)架构,支持60秒视频生成,远超此前主流模型4秒的限制[1][8] - DiT架构兼具扩散模型的高质量生成能力和Transformer的长序列处理优势,成为当前AIGC视频模型的主流选择,但在复杂运动模拟和物理规律还原上仍需优化[1][19][21] - 国内外大厂加速布局:海外以OpenAI、Runway、Meta为代表,国内快手(可灵AI)、阿里(通义万相)、字节(即梦AI)等相继推出同类产品[5][8] 技术架构与产品性能 - 当前C端应用生成效果仍存在肢体扭曲、运动不连贯等问题,需通过"文本扩写-文生图-图生视频"多步骤提升可控性[9][26] - B端应用已实现商业化落地,如新华社每周生产150-200条AIGC新闻视频,总浏览量破5亿次;《潜入梦海》AI短片以万元成本实现传统百万元级特效效果[12][13] - 主流产品性能差异显著:Sora在物理模拟和动态一致性上领先,Meta Movie Gen采用Llama架构,阿里EasyAnimate开源模型支持5分钟长视频生成[8][25][30] 产业变革与商业化路径 - AIGC推动内容生产从人力密集型转向AI主导模式,影视制作全流程(剧本生成、分镜设计、虚拟拍摄等)效率提升90%以上,成本降至传统1%[2][48][51] - 产业价值链重构:竞争核心从制作/渠道能力转向IP创意运营和AI模型能力,头部公司通过"云+大模型+数据+应用"全生态布局争夺话语权[2][54] - 商业化进程分层:C端以低门槛工具快速获客(快手可灵AI用户达2200万),B端通过专业级应用降本增效(影视特效成本降低80%+)[57][58] 未来发展趋势 - 技术迭代方向聚焦空间分层、运动模块优化和视频预训练,需解决体操/杂技等复杂动作的"图灵时刻"难题[21][22] - 全球影视市场超3000亿美元规模(中国占300-400亿)将成AIGC视频确定性应用场景,预计2025年后进入小时级精品内容生成阶段[15][59] - 参照互联网对传媒的变革逻辑,AIGC将引发更强马太效应,字节/腾讯等平台凭借算法和数据优势加速垄断内容分发渠道[41][44][47]
AI颠覆广告利润池
36氪· 2025-07-04 17:55
AI重塑广告行业 - AI正以前所未有的速度重塑广告行业,涵盖广告投放方式、内容创作流程、受众定位和创意生产等方方面面 [1] - 高盛预计AI将撼动全球约4,700亿美元的广告利润池 [1] - 谷歌和Meta正凭借AI自动化工具收割第一波红利,中国科技巨头腾讯、字节跳动、阿里也在改变广告的创作、投放与衡量方式 [1] AI重构广告利润池的四个层面 - 渠道转移:AI将加速传统广告预算向数字渠道迁移,涉及1,700亿美元机遇,数字广告渗透率已从2017年的40.8%提高至2024年约69% [2] - 创意生产:生成式AI将大幅降低广告创意制作成本,涉及1,140亿美元节省,过去占总支出5%-30%的创意开发将被AI驱动的规模化生产取代 [3] - 代理重塑:自动化平台让广告主能直接触达受众,冲击传统广告代理商1,610亿美元年收入 [3] - 中介压缩:AI驱动的一站式广告平台减少对第三方广告技术中介的需求,可能挤压其约250亿美元利润空间 [3] AI广告产品的先行者 - 谷歌Performance Max和Meta Advantage+是目前最成功的综合AI广告产品 [4] - PMax横跨搜索、展示、YouTube、Gmail等全平台,广告主只需提供转化目标、预算、素材和受众信号,AI自动完成投放决策和优化 [4] - 美国采用PMax的广告主比例从2021年Q4的2%激增至2024年Q4的59%,其投放支出占美国谷歌广告总额的46% [5] - Advantage+采用率从2023年Q1的2%攀升至2024年Q4的36% [5] 中国玩家的AI广告布局 - 字节跳动推出"即创AI"平台,平均生成一条视频素材用时不到5分钟,图文素材仅需33秒,内置3,500+数字人形象 [7] - 字节跳动推出UBMax实现全自动化投放,覆盖抖音、今日头条、西瓜视频等资源 [8] - TikTok推出Symphony智能创意套件,包括Symphony Creative Studio、AI助手、数字分身等模块 [9] - 腾讯推出"腾讯广告妙思"平台,10分钟即可生成等量素材,效率提升数百倍 [12] - 腾讯广告3.0系统取消人工设定出价和圈定人群步骤,由AI自动处理 [14] - 阿里妈妈推出"万相实验室",素材制作效率提升5倍,商品广告点击率提升约45% [16] - 阿里妈妈"万相台无界版"实现全域智能投放,每天可为商家扩展新增触达人群超2亿 [17]
对话快手可灵丨AI 新世界加载中,我们还能做些什么?
雪豹财经社· 2025-07-02 10:22
核心观点 - AI生成视频技术已具备一定成熟度,尤其在写实风格表达和运动表现方面表现突出,但距离高水准大银幕制作仍有差距 [7][16] - 行业处于快速迭代期,国内外巨头加速入场,可灵AI凭借高频迭代(一年22次)和综合实力保持Tier 1水平 [8][23] - AI工具在短剧、广告、游戏等领域已实现商业化应用,尤其在科幻类内容制作中可节省50%-70%成本 [7][28][29] 技术进展 - 可灵AI 2.1模型在语义遵从、运动表现(速度/自然度/物理规律符合度)等基础能力显著提升,支持高速运动与极致互动表现 [10][16] - 视频生成技术突破点包括:水流波动/动物毛发纹理的真实渲染、长镜头表情变化细腻度、二维动漫打斗动作流畅度 [3][16] - 当前技术短板集中于运动模糊、边缘模糊、群像人脸崩坏等稳定性问题,音效同步能力暂未布局 [18] 商业化表现 - 可灵AI全球用户达2200万,企业及开发者超1万,Q1营收1.5亿元(70%来自P端订阅) [8] - 定价策略激进:5秒视频3.5元(0.7元/秒),低于行业1元/秒均价 [19] - 主要落地场景:短剧大空镜/战争场面生成(成本节省50%)、宠物魔改视频、广告特效模板 [7][15][29] 行业竞争格局 - 全球视频生成赛道形成百花齐放格局:可灵与谷歌Veo分列文生视频/图生视频全球前二,Meta Movie Gen、阿里通义万相2.1、字节即梦AI等相继入场 [8] - 核心竞争力差异:谷歌Veo依托YouTube数据强化音画同步,可灵聚焦基础模型迭代与创作者生态建设 [18][20] - 行业仍处早期阶段,技术迭代、创作者生态搭建、商业化路径探索为共同挑战 [8][24] 应用前景 - 科幻/魔幻类内容降本效果最显著,可达传统制作成本的1/50-1/2,现实主义题材因观众敏感度较高应用受限 [29][31] - 动画制作效率提升至传统工时的1/3,资金成本降低至1/2以下 [7][32] - 未来方向包括简化创作流程、强化多模态融合、拓展C端用户破圈 [15][17]
视频生成大模型的2025半年“赛点”:向左刷榜“跑分”,向右刷屏“跑量”
36氪· 2025-05-29 09:59
谷歌Veo 3发布 - 谷歌在2025 Google I/O开发者大会上发布视频生成大模型Veo 3,实现视频与音频的原生集成,包括音乐、背景音效和角色对话的自然生成,并能同步口型 [1] - Veo 3具备更强的物理规律理解与模拟能力,显著提升AI视频生成的真实感与沉浸感 [3] - 谷歌在发布Veo 3当天即刻上线Flow平台面向市场开放使用,不同于Sora发布时不对外开放的策略 [8] 国产视频生成模型表现 - 快手可灵2.0以1124分的Arena ELO基准测试评分位居Artificial Analysis榜单图生视频赛道榜首,对比谷歌Veo 2的胜负比达205%,对比OpenAI Sora的胜负比达367% [4] - 生数科技Vidu Q1在VBench Leaderboard和SuperCLUE榜单上登顶文生视频和图生视频分项榜首,超越Runway、Sora等国外模型 [6] - 阿里通义万相2.1曾在VBench Leaderboard榜单排名第一,在复杂运动处理、现实物理还原等方面表现突出 [6] 行业竞争格局 - 视频生成大模型赛道竞争激烈,国内外厂商呈现"螺旋式"互殴局面,榜单排名频繁更替 [4][6] - 国产模型通过高频迭代迅速跻身第一梯队,可灵AI上线以来已迭代20多次 [4] - 行业技术进步显著,从早期"鬼畜"画面发展到音频、画面、动作等多因素高度协同集成 [7] 商业化进展 - 国内厂商商业化路径更宽更快,快手可灵AI单月流水超千万元,与伊利、vivo等头部品牌达成合作 [11] - 抖音AI特效话题播放量超36亿次,快手AIGC广告收入规模提升12倍,单日消耗峰值突破2000万元 [8] - 首部付费AI短剧《兴安岭诡事》市场反响热烈,AI+萌娃、AI+宠物等主题视频创作吸引大量流量 [8] 商业模式对比 - 国内采用免费版与会员制结合策略,每天送积分吸引用户,会员定价平均低于国外厂商 [12] - 谷歌Veo 3需开通125美元/月的Ultra会员,且每月仅能生成约85条视频,限制用户大规模出片能力 [11] - 抖音即梦AI周活跃用户数从76万增至200万,月活达893万,商业化支撑数据亮眼 [11][14]
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
是说芯语· 2025-05-09 07:32
阿里巴巴通义实验室高层变动 - 阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)于4月30日离职,他曾带领团队开发出"兵马俑跳科目三"等爆款功能 [2][3] - 薄列峰已加入某互联网大厂(猜测为字节跳动或腾讯),base美国,担任多模态模型部副总经理,直接向公司副总裁汇报 [4] - 这是通义实验室今年第二位离职的高层,此前语音团队负责人鄢志杰(达摩院创始"扫地僧"之一)已于2月15日离职,两个职位接替人选均未公布 [4] 离职影响分析 - 离职可能延缓阿里大模型技术路线推进速度,延长产品迭代周期 [4] - 多模态技术整合与商业化落地节奏可能受到干扰,商业推广计划需重新评估 [4] - 若加入竞争对手公司,将对阿里AI版图扩张形成阻力 [4] 薄列峰在阿里的任职经历 - 2022年加入阿里,接替谭平担任达摩院XR实验室负责人 [6] - 在阿里云重组通义实验室后被任命为应用视觉团队负责人,被称为"阿里通义大模型图像和多模态方向的领军人物" [6] - 任职期间带领团队开发出多个爆款应用功能 [2] 通义实验室人才结构 - 实验室核心成员包括自然语言处理方向负责人黄非(前Facebook AI翻译主管)、系统研发总监周文猛、通义千问产品负责人林俊旸等 [7] - 人才梯队呈现"外部招徕老将"带领"内部培育新兵"的特色 [7] 薄列峰职业背景 - 西安电子科技大学博士,曾在芝加哥大学和华盛顿大学从事博士后研究 [9] - 2013-2017年任亚马逊首席科学家,领导Amazon Go无人零售店核心技术研发 [9] - 2017-2022年任京东数科AI实验室首席科学家 [9] - 研究领域涵盖机器学习、计算机视觉、自然语言处理等多个方向 [9]
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
量子位· 2025-05-06 14:31
阿里巴巴通义实验室高层人员变动 - 阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)于4月30日离职,已加入某互联网大厂担任多模态模型部副总经理[1][2] - 薄列峰是通义实验室今年第二位离职的高层员工,此前语音团队负责人鄢志杰(达摩院创始"扫地僧"之一)已于2月15日离职[3][4] - 两位高管离职后,阿里尚未公布接替人选[5] 通义实验室组织架构调整 - 2022年薄列峰加入阿里达摩院,同期加入的还有前滴滴副总裁叶杰平[7][8] - ChatGPT浪潮后,阿里将达摩院多个实验室重组为通义实验室,由阿里云CTO周靖人领导[11][12] - 薄列峰被任命为应用视觉团队负责人,成为通义大模型图像/多模态领域领军人物[13] 通义实验室人才结构 - 核心团队包括自然语言处理负责人黄非(前Facebook AI翻译主管)、系统研发总监周文猛等[14][15][16] - 人才梯队呈现"外部资深专家+内部培养新兵"的特点[17] - 黄非主导开发了通义灵码并引入Agents架构[15][16] 薄列峰职业背景 - 西安电子科大博士,曾在芝加哥大学和华盛顿大学从事博士后研究[18][19] - 2013-2017年任亚马逊首席科学家,主导Amazon Go无人零售店核心技术研发[20] - 2017年加入京东数科任AI实验室首席科学家,2022年转入阿里[21][22]
一年半走访 100 家企业,阿里云寻找 AI 落地的答案
晚点LatePost· 2024-06-21 14:15
中国AI应用实践与行业落地 - 微博利用大模型开发AI评论机器人"MBTI小行家",上线两周粉丝近百万,带动平台互动率提升10% [2] - 新东方通过大模型定制学习计划使学员满意度提升3%,易点天下将视频制作时间从12小时缩短至5分钟 [2] - 中国一汽的GPT-BI应用5秒生成多变量报表,准确率达92.5% [2] - 智联招聘AI工具使HR发布职位时间缩减90%,匹配效率提升100%,处理投递效率提升300% [5] - 童语故事AIGC儿童绘本产品上线9个月获200万用户,支持个性化故事与图像生成 [6][7] 专业大模型与行业结合路径 - 2023年成为专业大模型元年,企业主要采取两种应用方式:优化现有业务流程或创建新业务场景 [5] - 微博保留大模型"幻觉"特性增强互动趣味性,并尝试AI生成影视角色账号如《长月烬明》主角账号 [5] - 智联招聘训练销售培训大模型,将培训周期从两周缩短至数天 [5] - 朗新科技开发电力账单解读助手使人工处理工单量下降70% [15] - 吴晓波认为在成熟商业流程中嵌入AI如同"电钻替代锤子",能最快发挥效率优势 [10] 阿里云AI技术布局与生态建设 - 阿里云提出"AI驱动,公共云优先"战略,Qwen-Long API价格降至0.5元/百万Tokens行业最低 [11] - 通义千问Qwen2-72B开源模型在Hugging Face测评中超越Llama3等国际模型 [11] - 魔搭社区聚集4500款AI模型和500万开发者,成为国内最大开源模型社区 [15] - 飞天云平台支持复旦大学训练45亿参数伏羲气象模型,3秒预测15日全球天气 [12] - 吉利汽车借助阿里云工具将1000个智驾模型训练时长从3个月缩短至8小时,研发效能提升20% [11] 中国AI产业发展特点与优势 - 中国AI发展核心优势在于丰富的应用场景,覆盖电商/金融/医疗/制造等多个领域 [19] - 2023年Gartner调查显示45%企业尝试生成式AI,较半年前实际应用率从4%提升至10% [5] - 阿里云2024Q1 AI相关收入同比增长超100%,通过投资月之暗面/MiniMax等完善生态 [15] - 行业数字化转型基础(如攀钢数字化方案节省数千万元)为AI渗透提供条件 [19] - 中美欧差异化优势:美国强算法、欧洲强工业数据、中国强场景落地 [19]