Veo3
搜索文档
GenAI 系列报告之 69 暨 AI 应用深度之四:Seedance2.0 突破,AI 视频竞争格局及产业链机遇
申万宏源证券· 2026-02-26 19:10
报告行业投资评级 * 报告未明确给出统一的行业投资评级,但列出了覆盖产业链各环节的“投资分析意见”及具体公司名单 [5][70] 报告核心观点 * 字节Seedance2.0在技术与产业落地(依托字节生态形成“创作-分发-变现-反哺迭代”闭环)上实现双重突破,标志着AI视频赛道已正式跨过规模化商用临界点 [5][6][12] * 全球AI视频生成市场尚处发展初期,市场空间广阔,国内头部模型(字节、快手、阿里、MiniMax等)保持1-2个季度的快速迭代速度且定价显著低于海外,差异化定位使得多家头部公司可以并存 [5][6][13][16] * AI将改变内容产业的生产函数,转向“基础创意+提示词工程+AI算力+数据燃料+分发算法”的新范式,产业价值将加速向价值链两端(上游稀缺IP与下游高效分发平台)聚集,中游标准化制作环节价值面临压缩 [5][6][7][37][38][39] * AI漫剧是AI视频技术首个大规模商业化落地场景,正迎来从0到1的爆发机遇,AI真人短剧是下一个风口,短视频平台、IP方及整合工具链的一站式工作流将受益 [5][6][41][52][53][54] * AIGC时代版权服务重要性凸显,版权方与AI企业开始从对抗转向“训练授权+价值分成+股权投资”等主动合作,建立完善的确权溯源体系与精细分成机制是IP方价值重估的关键 [5][8][60][61][62][66] * 多模态(视频)算力消耗远大于LLM,生成5秒4K视频的算力约为LLM处理10万次200Token Prompt所需算力的10万倍,将利好AI云、芯片、服务器、存储、IDC及网络互联带宽等算力产业链 [5][7][68][69][70] 根据相关目录分别总结 1. Seedance2.0:技术突破与产业突破 * **技术突破**:采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态的“全能参考”输入,创作自由度大幅提升;在主体形象与声音还原、动作逻辑、特效风格及剧情叙事的参考一致性上表现较好,并具备一定的自主规划镜头语言的编导思维 [11] * **产业突破**:依托字节生态(剪映、火山引擎、抖音、TikTok等)形成了从“创作-分发-变现-反哺迭代”的完整闭环,为用户提供了从创意到收益的完整路径,区别于OpenAI Sora需依赖第三方平台分发的模式 [5][12] 2. 如何看待Seedance2.0与快手等模型的竞争? * **市场格局**:AI视频生成市场空间广阔,尚处快速发展初期而非零和竞争阶段。根据LMArena截至2026年2月10日的榜单,文生视频前20名中谷歌Veo系列、OpenAI Sora系列排名靠前;国内阿里(Wan2.5)、字节(Seedance1.5 Pro)、快手(Kling)及MiniMax(Hailuo)等模型排名在10-20名区间 [13][14][15] * **差异化竞争**:快手可灵3.0注重多镜头输入,专注于长时序叙事和镜头语言可控,适合专业影视创作者;字节Seedance2.0注重多模态参考输入,更适合普通用户或一般创作者;两者技术路线(均基于Latent Diffusion+Transformer)有相似之处,但市场定位和技术侧重点不同,形成差异化竞争 [5][18][20][21] * **迭代与定价**:国内头部模型基本保持1-2个季度一次重大版本的迭代速度,且整体定价显著低于海外模型,性价比高 [5][16][17] 3. 人工智能或改变内容产业的生产函数:利好上游IP、下游分发平台以及算力 * **生产函数变革**:AI引入后,内容生产从依赖创意、专用设备、制作工时、传播渠道,转向依赖基础创意、提示词工程、AI算力、数据燃料和分发算法 [7][37] * **价值重分配**: * **上游创意与IP端**:AI降低创作门槛导致尾部内容泛滥、腰部内容通缩,但头部稀缺IP价值进一步放大,并有望借助AI工具提升运营效率 [5][39] * **下游分发与运营端**:内容供给爆炸式增长后,用户注意力成为核心稀缺资源,具备强用户粘性、高效分发算法和成熟创作者生态的平台(如抖音、哔哩哔哩、快手等)价值持续强化 [5][39][40] * **中游制作环节**:标准化、流程化的生产环节价值面临持续压缩 [5][39] * **案例**:以ItalianBrainrot社区为例,展示了去中心化UGC内容通过游戏、电影改编等实现IP价值提升的路径,凸显了优质UGC社区和高效分发平台的价值 [39][40] 4. AI漫剧:AI视频大规模产业实践,从0-1的机遇 * **市场与用户**:2025年中国微短剧市场规模突破1000亿元。AI漫剧核心用户为40岁以下年轻男性(占比超73%),与真人短剧用户形成差异,打开了增量市场 [41][46][48] * **落地条件**:AI视频在分辨率、帧率、色彩等核心参数上已达到漫剧等轻量视频的制作要求;AI工具可降低生产成本70%以上,提升效率80%以上 [43][44] * **商业化进展**:市场已出现月分账破500万人民币的企业(如漫谭动漫)和播放量破10亿的作品(如《斩仙台下我震惊了诸神!》) [49][50] * **产业链受益方**: * **短视频平台**是核心环节,竞争要素包括用户粘性、分发算法及集成AI工具的一站式创作分发能力 [53] * **IP方**获得新的变现和引流渠道,可提升IP运营效率 [54] * **AI技术提供方**的关键在于整合复杂工作流,构建一站式平台 [54] * **制作方**短期受益于成本下降,但长期内容突围难度提升 [54] * **未来趋势**:AI真人短剧正在崛起,如《轩仙台真人AI版》上线6天播放量破亿,其制作成本仅为传统真人短剧的1/4 [52][53] 5. AIGC时代版权服务重要性凸显 * **版权纠纷焦点**:集中在训练数据和生成内容的侵权认定,以及生成式AI内容的版权归属 [5][61] * **合作模式转变**:版权方与人工智能企业开始从对抗转向“训练授权+价值分成+股权投资”等主动合作模式,例如OpenAI与迪士尼签订了为期三年的授权协议,并获得了迪士尼10亿美元股权投资 [8][62][63] * **关键基础设施**:建立完善的确权溯源体系(如采用数字指纹、区块链存证技术)和更精细的分成机制,是AIGC时代IP方价值重估的关键 [5][8][62][66] * **行业进展差异**:音乐领域凭借标准化的权利标识(如ISRC)、成熟的集体管理组织(如ASCAP)和清晰可计量的使用场景,在AI版权合作上进展快于文字和影视视频领域 [5][66][67] 6. 多模态算力消耗较大 * **算力对比**:视频模型因需处理时空序列、高分辨率像素及多步去噪,算力消耗远大于LLM。生成一张图所需算力约为LLM处理200Token的100倍;生成5秒标清(24fps)视频约为1万倍;生成5秒4K视频约为10万倍 [68][69] * **产业链影响**:多模态算力需求井喷,将利好AI云服务、GPU芯片、AI服务器、存储、数据中心(IDC)、网络互联带宽等整个算力产业链 [5][69][70] 7. 投资分析意见 * **AI视频模型**:快手-W、Minimax、阿里巴巴 [5][70] * **分发平台**:哔哩哔哩、腾讯控股、芒果超媒 [5][70] * **版权数据服务**:阜博集团、视觉中国 [5][70] * **IP方**:阅文集团、中文在线、掌阅科技、光线传媒、上海电影等 [5][70] * **云和算力**:百度、金山云、中际旭创、新易盛、天孚通信、锐捷网络、润泽科技、奥飞数据、万国数据、世纪互联、网宿科技、大位科技等 [5][70] * **其他**:博纳影业、中国儒意集团、欢瑞世纪、荣信文化、兆驰股份、德才股份、昆仑万维、易点天下等 [5][70]
AI视频行业深度报告:技术跃迁驱动内容革命,把握产业变革新机遇
中邮证券· 2026-02-14 18:32
报告行业投资评级 - 传媒行业评级:强大于市(维持)[2] 报告核心观点 - 技术跃迁驱动内容革命,AI视频生成正从GAN走向DiT架构,是通往AGI的重要路径,其突破将对AIGC产业应用前景起到重要作用[3] - 短视频生成质量已接近专业水准,但长视频生成在物理合理性与时长上仍存瓶颈,业界关注的世界模型可能成为解决上述瓶颈、带来新技术变革的关键路径[3] - 全球AI视频生成市场正加速扩张,商业化在C端(订阅模式)与B端(API模式)双路并进,随着模型能力与工具链完善,2026年有望成为AI影视级项目商业化的关键元年[3] - AI视频是传媒行业的核心应用场景,广告、影视、游戏等领域均有望受益,并已涌现出具备自研算法、海量内容、AI营销及游戏资产生产能力的核心受益上市公司[4] 根据目录的总结 1. 视频生成的前世今生:从GAN走向DiT,通往AGI的重要路径 - **视频生成决定AIGC技术上限**:视频融合文本、图像、音频等多模态信息并引入时间维度,需处理空间、时间、因果与交互等高维结构,其复杂性要求模型具备对真实世界的综合理解与推演能力,是当前行业技术短板[7] - **技术路径演进形成共识**:AI视频生成技术自2010年代中后期起步,经历了GAN、Transformer、Diffusion Model等多个架构尝试。2024年OpenAI发布的Sora验证了DiT(Diffusion+Transformer)架构的可行性与效果,推动主流厂商全面向DiT路径演进,产业进入高速发展期[3][9] - **DiT架构成为主导路线**:DiT融合了扩散模型的生成稳定性与Transformer的长程依赖建模能力,遵循Scaling Law,使生成能力可随参数规模、数据体量与训练算力提升而持续增强。Sora发布后,字节、Google、腾讯等主流厂商模型均已向DiT架构收敛[25][29][30] 2. 技术进展:短视频生成已近专业水准,长视频或迎重要变革节点 - **美学质量接近专业水准**:当前主流模型已支持1080p及以上分辨率(部分达4K),帧率多为24-30fps。以Sora 2为例,其在高真实性、多风格表达、复杂人物主体及多镜头连续叙事方面表现成熟,短片段生成能力已基本满足影视与商业内容制作需求[34][36] - **多模态向“音画一体”演进**:AI视频音效生成分为一体化生成和后期分离生成两类路径。Google Veo 3是首个实现商业化落地的音视同步生成模型,在发布后两个月内累计生成视频超过7,000万条。在其示范效应下,主流厂商发布节奏密集,技术路径趋于收敛[41][46][47] - **物理能力与生成长时是主要瓶颈**:提升物理能力主要有“隐式物理学习”(迭代快但稳定性有限)和“显式物理约束”(物理正确性高但成本与自由度受限)两种路径[50][57]。目前主流视频模型的单次原生生成时长普遍在5-20秒,长视频生成受模型上下文记忆力有限及误差累积两大技术限制[61][62] - **世界模型或为长视频带来新变量**:世界模型旨在构建可长期维持状态并遵循物理规律的虚拟世界,正对应视频生成在长时一致性与物理可信度上的短板。2025年后,产业研究重心向“生成派”倾斜,如Google的Genie 3已能实时生成维持数分钟画面一致性的动态世界。世界模型在关键性能上迭代更快,可能成为视频生成的另一条主流演进路径[3][72][82][90] 3. 商业化进展:C+B端双路并进,影视级项目有望迎来商业元年 - **市场规模与增长**:全球AI视频生成市场正加速扩张,预计2026年市场规模将达2.96亿美元,同比增长35.16%[3] - **C端以订阅模式为主**:用户量是现阶段主要评判标准,Sora体量断档领先。行业正探索新商业模式,如OpenAI推出社交化视频创作平台Sora app,未来有望向广告、电商等路径拓展[3] - **B端以API模式为主**:核心在电商展示、广告等领域应用已基本成熟,“质量+效率+成本”是核心评价维度,可灵、海螺、Vidu等部分国产模型已实现行业领先。目前API模式主要应用于素材级生成[3] - **影视级项目商业化起步**:部分海外厂商已开始试水影视级AI解决方案并实现商业验证。例如,Utopai通过《Cortés》《Project Space》等项目累计实现收入约1.1亿美元。随着模型能力演进与工具链完善,2026年有望成为AI影视制作商业化的关键起点[3] 4. 传媒:AI视频核心应用场景,广告、影视、游戏均有望受益 - **广告:视频素材占比高,AI渗透潜力大**:2025年上半年全网移动广告中,视频类素材投放占比已超过65%,其中竖屏视频占比高达54.8%,契合现阶段视频生成模型能力边界。目前AI在广告内容生成中,视频创作渗透率(19%)明显低于内容草拟(70%)和文案创作(59%),具备后发增长潜力。AI视频工具有望使营销服务商转型为全链路合作伙伴[4] - **影视:AI漫剧与短剧率先实现商业闭环**:AI漫剧与视频生成契合度最高,已率先实现商业闭环。拟真人短剧方面,2025年1月抖音TOP5000短剧中仅4部为全AI生成,10月、11月分别增长至69部与217部,内容接受度快速提升。长剧与电影层面,CG特效等高价值环节有望成为首批替代场景,中小型影视团队或更可能率先受益[4] - **游戏:技术同源,应用持续深化**:视频生成与3D生成的底层技术路径一致。当前3D生成在游戏建模领域已初步实现静态资产的自动化生产,例如腾讯内部数十款游戏(如《元梦之星》)已接入混元3D能力。后续世界模型等新技术落地有望进一步带动动态资产生成与应用,视频生成与交互融合亦可能催生具备实时互动能力的新游戏品类[4] 5. 核心受益上市公司 - **具备自研算法与模型能力的技术型公司**:昆仑万维[4] - **拥有海量内容资产与版权资源的影视内容提供商**:中文在线、捷成股份、华策影视[4] - **积极布局AI营销、具备内容分发的整合型平台公司**:易点天下[4] - **推动AI生成能力嵌入游戏资产生产流程的大型游戏公司**:完美世界、巨人网络[4]
软件ETF(515230)涨超2%,近10日资金净流入超28亿元,多模态预计在2026年进一步迭代
每日经济新闻· 2026-01-23 15:16
软件ETF市场表现与资金流向 - 1月23日,软件ETF(515230)当日涨幅超过2% [1] - 该ETF近10日资金净流入超过28亿元人民币 [1] - 软件ETF跟踪中证软件指数(H30202),该指数反映软件行业市场表现,成分股涵盖应用软件、系统软件开发及相关服务企业 [1] - 指数侧重于技术创新和高成长性企业,行业配置集中于信息技术领域,整体风格偏向成长型 [1] 多模态AI技术发展前景与时间线 - 多模态技术被认为是2026年AI应用发展的关键 [1] - 海外多模态技术预计在2026年进一步迭代,发展方向是统一Token化的世界模型 [1] - 国产多模态大模型,如字节的Seed和Minimax的海螺,有望快速追赶,相关产品可能在2026年上半年发布 [1] AI视频领域的应用与进展 - AI视频是多模态技术的直接受益领域之一 [1] - 受益于Sora2和Veo3解决了物理一致性问题,AI视频已在2025年第四季度进入生成环境(例如AI漫剧) [1] - 随着国产多模态大模型在2026年第一季度的追赶,AI视频应用有望进一步加速 [1] - 长远来看,以多模态为基础的AI视频将为人类提供丰富的“精神养料” [1] 机器人/自动驾驶领域的应用与展望 - 机器人/自动驾驶是多模态技术的另一个直接受益领域 [1] - 随着世界模型(如谷歌Genie和特斯拉模型)的迭代,该领域有望在2026年于试验环境落地 [1] 产业链相关受益环节 - 算力与存储环节有望持续受益于多模态、长记忆等AI技术的落地 [1]
狂揽2亿播放,AI吃播站上内容风口
36氪· 2025-12-18 19:16
AI生成内容在美食赛道的应用现状 - AI生成的美食视频内容形式多样,包括模仿综艺节目制作“将远古沧龙做成六道菜”的系列视频,其首期播放量达到764万并登上平台每周必看榜单[1][2] - 在短视频平台,“AI美食”话题播放量超过2亿次,而AI吃播与ASMR结合的内容模式在小红书等平台单条笔记点赞量可超过6万次[5][6] - AI美食内容已从早期辅助生成菜谱演变为内容本身,并主要向解压和猎奇赛道发展,例如生成“切水果”、“涂面包”等ASMR视频以及“古人的一日三餐”等情境化内容[5][8] AI吃播的内容特点与流行逻辑 - AI吃播的核心逻辑是突破人类限制,展示食用玻璃、金属、熔岩等非常规物品的过程,通过咬碎时产生的特定音效(如玻璃脆响)结合ASMR带来解压感[12][14][17] - 这类视频时长多为15至60秒,节奏紧凑、感官刺激直接,具有高完播率和互动率,易于在碎片化场景传播并获算法推荐[17] - AI吃播的主角不限于真人形象,也包括BJD娃娃和宠物,但内容偶尔会因动作识别不准出现穿帮,例如宠物吃下的食物在咀嚼时发生变化[14][16] AI视频生成的技术支撑与创作生态 - 高质量AI视频的创作依赖多种主流模型组合,例如使用Gemini、ChatGPT处理脚本,用Veo3、可灵、即梦等生成视频,单条视频的会员及token成本可达四五千元[18][19] - 技术迭代显著降低了创作门槛,谷歌Veo3、快手可灵2.6、抖音即梦3.5 Pro等模型均支持音画同步生成,可实现毫秒级音频视频同步,简化了ASMR视频制作[19][20] - 创作生态中衍生出“卖模板”和“卖课”模式,博主通过分享定制化提示词模板进行引流或建立付费社群,单个社群人数可超过400人[21][25] AI生成美食内容的局限性与挑战 - AI吃播缺乏传统吃播的“饭张力”和情感连接,难以满足观众对情感代偿、陪伴感或实用探店信息的需求,内容模式单一且易引发审美疲劳[26][27] - 内容面临同质化危机和“恐怖谷”效应,常出现咀嚼动作与物理逻辑不匹配、吞咽镜头缺失等技术瑕疵,影响观看体验[27] - 行业面临法律与伦理边界问题,包括使用受版权保护形象可能构成侵权,以及AI生成内容需进行显著标识,相关滥用乱象已被纳入监管整治范围[28]
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 17:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
欧盟对谷歌展开调查
国际金融报· 2025-12-10 13:24
欧盟对谷歌AI数据使用展开反垄断调查 - 欧盟委员会宣布对谷歌展开正式调查,重点评估其使用在线出版商内容及YouTube创作者视频训练Gemini等AI模型的方式是否违反欧洲竞争规则 [2] - 调查围绕数据获取、版权补偿和平台优势等关键问题展开,折射出欧盟在生成式AI竞争格局重塑中的强监管态度 [2] 欧盟调查的具体指控与担忧 - 监管机构担心谷歌可能通过对出版商和内容创作者施加不公平条款,或为自身提供特权访问,从而在训练大型模型时获取竞争者难以复制的数据优势 [2] - 欧盟委员会认为,谷歌可能在创作者无法真正选择的情况下,使用上传至YouTube的视频训练Gemini与Veo3模型,创作者被要求授予广泛的数据使用许可,使得“同意”带有默认性质 [2] - 谷歌禁止第三方公司使用YouTube视频训练模型,除非版权持有人明确授权,这可能使谷歌在训练数据层面形成天然壁垒,激化对其市场支配力的担忧 [2] 谷歌的回应与行业背景 - 谷歌回应称相关投诉可能抑制本已竞争激烈的市场创新,并强调其已与新闻和创意产业合作,帮助他们适应AI带来的行业变化 [2] - Alphabet首席执行官桑达尔·皮查伊公开表示公众不应盲目信任AI工具,人工智能模型目前依然容易犯错,并预测如果AI泡沫破裂,没有任何一家科技企业能够幸免 [4] 欧盟对美科技巨头的持续监管态势 - 欧盟此次行动被视为欧洲近年来针对美国科技企业监管升级的又一次体现 [3] - 过去两年内,谷歌因数字广告业务问题被处以近30亿欧元罚款 Meta因Facebook Marketplace的竞争问题被罚款近8亿欧元,今年又因WhatsApp引入AI功能而遭到进一步调查 X(前Twitter)因蓝勾标识与广告透明度问题被罚款1.2亿欧元 苹果在税务案件中被要求补缴130亿欧元 [3] - 外界认为欧盟正试图在全球科技竞争中巩固对平台行为的规则引导权 [3] 欧盟的监管理念与全球反思 - 欧洲监管者强调人工智能发展不能以破坏社会核心原则为代价,包括内容创作者的权益、市场竞争的公平性和数据使用的透明度 [4] - 这一观点与全球技术领域的反思情绪相呼应 [4]
AI吃播开始和真人吃播抢「饭碗」
36氪· 2025-12-07 10:09
AI吃播的兴起与现状 - AI吃播内容以猎奇为核心,展示食用玻璃水果、宝石首饰盒、毛绒玩具、金条等非常规“食材”,主打“万物皆能吃”的概念[5][6] - 该内容形式在国内外短视频及社交平台迅速走红,例如Tiktok博主相关视频获赞81.7万,国内平台亦出现大量点赞破万的视频[5] - 视频主角多为仅露出侧脸、嘴和手的AI生成形象,也包括AI小孩、卡通形象或动物,甚至有博主将动漫角色“吃恶魔果实”等情节改编为猎奇吃播[13] AI吃播的流量与商业化 - AI吃播及AI ASMR类视频流量可观,动辄达到10万+、100万+,为创作者带来直接的流量广告分成收益[14] - 凭借视频制作成本低、可批量生产更新的特点,大量新账号涌入,业内一些专业账号通过高频更新已实现稳定月入过万[14] - 国内科技公司正积极布局相关技术,例如可灵视频模型升级“视频音效”功能,字节豆包推出视频音效智能生成模型SeedFoley,以捕捉此商机[16] AI吃播的技术支撑 - 当前大部分AI吃播视频由Google DeepMind于2024年5月底发布的Veo3模型生成,其关键优势在于能一键生成与画面匹配的原生声音[15] - 技术进步使得生成内容细节逼真,例如可灵官方展示的吃播视频中,主播皮肤纹理和毛孔非常真实,但仍有“AI味重”、“张嘴大吃得少”等常见破绽[17] 真人吃播的困境与转型 - 自2020年起,监管层面对“大胃王”等宣扬暴饮暴食、食品浪费的真人吃播进行专项整治,相关畸形直播逐渐淡出[19] - 头部真人吃播博主被迫转型,例如“密子君”淡化“大胃王”标签转向探店测评,抖音粉丝1664万的“小贝饿了”也在内容上拓展至带娃、健身等多类别[19][21] - 为追逐流量,部分真人吃播转向“吃常人不敢吃”的病态“吃奇”内容,如食用猪肠油、纯肥肉、生鸭屁股等,但中消协已倡议抵制此类极端行为,预计监管将进一步收紧[21][23] 行业未来趋势 - AI吃播凭借算法驱动的猎奇内容,正在抢占用户眼球,压缩了真人吃播的“想象空间”,重新定义了“吃”的边界[23] - 行业竞争将从单纯内容比拼,升级为技术、伦理与商业模式的全面较量,未来可能形成AI满足猎奇心理、真人深耕情感连接的新生态平衡[24]
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 12:08
文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经· 2025-12-02 17:09
AI视频生成模型竞争格局 - 2025年12月1日,海外AI视频初创公司Runway发布新一代视频模型Gen-4 5,国内公司可灵AI几乎同时宣布全新视频模型可灵O1上线,行业竞争激烈[3] - 根据Artificial Analysis基准测试榜单,Runway Gen-4 5以1247分位列文生视频模型第一,谷歌Veo3以1226分排名第二,快手可灵2 5以1225分排名第三,与第二名仅1分之差[7] - 其他主要竞争者包括排名第七的OpenAI Sora2 pro(1205分)和排名第八的MiniMax海螺02(1198分)[7][8] Runway Gen-4 5技术突破 - 模型在预训练数据效率和后训练技术方面取得突破,擅长执行复杂的序列指令,可指定镜头调度、场景构图、事件时间安排和氛围变化[9] - 实现了前所未有的物理精度和视觉精度,物体以真实重量和动力移动,液体动力学流动逼真,表面细节渲染出色,头发和材料编织等细节在运动中保持一致[15] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,效果可能先于原因出现,物体可能意外消失或出现[18] 行业动态与公司背景 - Runway成立于2018年,目前公司估值达35 5亿美元,2023年2月发布第一代视频模型Gen-1,7月实现文生视频和图生视频功能[18] - 公司CEO强调凭借约100人团队击败了万亿美元规模的公司,体现极度专注和勤奋可触及技术前沿[18] - 2024年起AI视频生成领域竞争白热化,2025年谷歌Veo系列确立行业领先地位,初创公司生存空间收窄,国内快手可灵和MiniMax形成竞争力[19] - Runway通过新品确立地位的重要性凸显,公司新一轮融资仍在推进中,行业期待谷歌Veo4发布,竞争将持续[19]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经资讯· 2025-12-02 15:16
行业竞争格局 - 2025年12月初,视频生成模型领域竞争加剧,海外初创公司Runway与国内公司可灵AI几乎同时发布新一代视频模型,火药味很浓 [1] - 根据Artificial Analysis基准测试榜单,Runway的Gen-4.5以1247分位列文生视频模型第一,超越谷歌的Veo3(1226分)和快手可灵2.5(1225分)[3] - 行业领先者还包括Luma Labs的Ray 3(1211分)、OpenAI的Sora 2 Pro(1205分)以及MiniMax的海螺02(1198分),竞争格局呈现多强并立态势 [4] - 从2024年开始,AI视频生成领域竞争白热化,谷歌Veo系列在2025年逐渐确立行业领先地位,挤压初创公司空间,而国内如快手可灵、MiniMax也形成了竞争力 [12] Runway公司及Gen-4.5模型 - Runway于2025年12月1日正式发布新一代视频模型Gen-4.5,在基准测试中超越谷歌Veo3登顶 [1] - 公司表示Gen-4.5在预训练数据效率和后训练技术方面取得突破,擅长理解和执行复杂的序列指令,能指定镜头调度、场景构图、事件时间及氛围变化 [5] - 该模型在精确遵循提示词、逼真的物理运动效果、风格控制和视觉一致性方面有新的进展 [5] - Runway强调Gen-4.5实现了前所未有的物理精度和视觉精度,物体能以真实的重量和动力移动,液体流动符合动力学,表面细节渲染逼真 [7] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,可能出现效果先于原因或物体意外消失的情况 [11] - Runway计划逐步开放Gen-4.5的使用权限,并以与当前订阅套餐相近的价格全面开放,即“加量不加价” [4] - Runway成立于2018年,根据PitchBook数据,公司估值已达到35.5亿美元,其于2023年2月发布第一代视频模型Gen-1,行业布局较早 [11] - Runway CEO表示,公司仅靠一百人的团队就击败了万亿美元规模的公司,认为极度专注和勤奋能触及技术前沿 [11] 可灵AI及行业其他参与者 - 在Runway发布Gen-4.5后约1小时,国内视频生成公司可灵AI在海外平台宣布上线全新视频模型可灵O1,并将其定义为“首个统一多模态视频大模型” [1] - 截至新闻发布时,基准测试榜单上尚未包含可灵O1的评分,但其被视为Gen-4.5潜在的有力竞争对手 [12] - 快手旗下的可灵2.5 Turbo 1080p模型在2025年9月发布,在基准测试中以1225分位列第三,与第二名谷歌Veo3仅一分之差 [3][4] - MiniMax的海螺02 Standard模型于2025年6月发布,在榜单上以1198分排名第八 [4] - 行业也在期待谷歌下一代视频模型Veo4的发布,围绕视频生成模型领先地位的较量预计将持续 [12]