Workflow
Google Veo3
icon
搜索文档
爱奇艺AI短片创作大赛入围作品首曝光 看AI如何“拍”出好短片
中国新闻网· 2025-10-21 15:58
大赛概况与成果 - 爱奇艺国际版主办的“与AI共生”短片创作大赛历时78天,覆盖全球30多个国家,吸引超2300位创作者参与 [2] - 共计142部优秀AI短片作品通过初筛,其中54部为评委提名作品,将角逐最终11个奖项 [2] - 涌现出《白骏马》《大展鸿图》《黄灯的三秒》等多部叙事扎实、视角新颖的作品 [4][5] 技术合作与支持 - 谷歌和火山引擎作为大赛合作伙伴,为参赛选手提供视频大模型Google Veo3和豆包Seedance1.0 pro的技术支持 [4] - 创作者运用超现实主义、赛博朋克、定格动画、3D动画、水墨水彩等多种美术风格进行创作 [5] 公司战略与行业影响 - 公司认为AI技术在助力影像创意表达、降低创作门槛上起到重要作用 [5] - 全球AI视频大模型在视频画面一致性、音画同步性、运镜连贯性上取得显著进展 [5] - 公司致力于与全球创作者探索AI与影视融合的无限可能,开启内容创作新篇章 [6] 后续计划与活动 - 大赛最终获奖结果将于2025年11月上旬公布,获奖作品将在“2025爱奇艺尖叫之夜”展示 [5] - 公司携手鲍德熹发起“鲍德熹·爱奇艺AI剧场”创作营,向全球招募创意,目标是打造时长不低于15分钟的AI叙事影片 [5]
Lovart 陈冕:Sora 证明巨头无边界,AI 创业得提前描绘未来丨晚点聊
晚点LatePost· 2025-10-11 00:16
Sora App的发布与行业影响 - Sora app在发布后迅速超越ChatGPT和Gemini,登上美区App Store下载总榜第一,打开了消费类AI超级应用的可能性[2] - Sora app被体验者认为是一个社交产品,其潜力可能比“AI抖音”更大,甚至可能成为一个“虚拟世界的微信”,涉及数十亿级用户的机会[3][7][12] - 该产品的关键创新在于cameo(出境秀)和Remix(重新创作)功能,前者实现了用户与AI形象的音画同步“合拍”,后者解决了用户接力共创的问题,其交互设计顺滑且完成度高[8][9] - 行业认为留给其他公司抓住类似AI社交机会的时间窗口可能只有3到6个月,这是一场所有模型巨头都输不起的竞争[13] - OpenAI的激进策略体现在其快速推出产品以及疯狂铺设算力,例如与英伟达合作的新数据中心总耗电量将达10吉瓦(GW),超过夏日高峰时的纽约市,另有总计17吉瓦的其他项目在推进[3][14] AI应用创业的机遇与挑战 - 模型成本正在不断降低,例如Veo3近期开始打5折,Nano Banana也比GPT-Image-1便宜很多,这为消费端(to C)应用的可行性创造了条件[3][35] - 垂类应用公司的生存空间在于做好两件事:特殊的交互方式(如还原人与人的沟通场景)和特殊的上下文工程(积累行业经验和数据),从而与通用大模型拉开差异[5][22][23] - AI应用公司面临巨头竞争的巨大压力,一旦中型公司做出创新产品,巨头会凭借流量和资金优势快速跟进,使得AI社交等领域注定是巨头战场[11] - 当前市场存在增长速度错配的风险,人们对技术发展的乐观预期与算力、能源设施等物理底层建设的实际周期可能不匹配,甚至可能带来短暂的泡沫破裂[15] - 用户习惯的改变(人心)是另一个无法被加速的因素,真实与虚拟边界模糊的接受过程需要时间[16] Lovart的业务实践与战略 - Lovart作为服务设计生产场景的垂类Agent,目前获得了约20万日活用户,年化预估收入超越3000万美元,其用户增长呈现阶梯式上升,而非爆红后下跌[17] - 公司约三分之一的用户在美国,美国也是其用户数量和收入最多的市场,公司定位是服务“所有有创作欲的人”,而非所有人,涵盖了从专业设计师到普通中小商家的用户群体[17][21] - 在商业模式上,目前Agent类产品由于API成本高昂且存在免费额度,尚不能覆盖服务成本,但公司对长期商业模式毫不困惑,认为token成本会像电力和流量一样逐渐降低,订阅制是基础,未来可能发展按思考时间收费[18] - 公司的产品策略是“提前描绘未来,然后等它发生”,即密切跟进模型迭代,预判其演化方向,并提前设计出对应的交互方式(如ChatCanvas),待模型能力ready时快速推出[4][25][26] - 公司正在开发一个context(上下文)模块,旨在通过多轮对话沉淀用户的素材库和审美偏好,使AI设计师能给出更符合需求的产出,该模块计划在10月底上线[28][29][41] AI应用公司的组织与心态 - 在AI时代,时机(timing)至关重要,过去一个成功业务形态可以维持10年,现在可能只能活两年,因此公司必须保持高频迭代,不能抓住一个PMF后就慢下来[36] - 焦虑被认为是做好AI应用的必要条件,因为技术、产品、融资等节奏极快,情绪常在“不过如此”和“害怕错过”间摇摆,需要与焦虑共处并保持高敏感度[37][40] - 公司的韧性来自于对AI发展趋势的信念和认知,例如坚信AI会持续快速发展并取代虚构内容创作,而非盲目坚持[6][42] - 组织需要能够快速理解新技术,并在快速变化中优先选择杠杆最大的事,这可能导致频繁的方向和团队调整,是当前环境下不可避免的挑战[39][40] - 创始人认为创业如同极限运动或魂类游戏,过程充满焦虑和痛苦,但一旦找到“正确路径”并跨越挑战,会带来巨大的成就感和快乐[43][44]
9款图生视频模型横评:谁能拍广告,谁还只是玩票?
锦秋集· 2025-09-01 12:32
文章核心观点 - 图生视频模型在语义理解、动作逻辑和物理规律方面仍存在显著瓶颈 但已能有效解决创作流程中的"微任务" 未来需向段落生成和工作流嵌入方向演进 [50][51][52][53][54][55] 测评产品与范围 - 测试覆盖9款主流图生视频产品 包括Google Veo3 快手Kling 2.1 字节Seedance 1.0 MiniMax Hailuo 02 生数Vidu Q1 Runway Gen-4 Midjourney V1 Pixverse V5和百度蒸汽机2.0 [7] - 测试时间为2025年8月 所有模型在统一条件下生成5秒视频 不调整除提示词外的附加参数 [9][13] 测试场景设计 - 测试包含三大类场景:职场与商业场景(品牌开场视频/企业节日物料) 轻创作与社交表达(宠物拟人/风格混合) 概念演示及创意实验(奇幻场景/ASMR音画同步) [11][16] - 评估维度包括语义遵循度(核心要素还原) 物理规律(动作自然性) 画面表现力(分辨率/光影/流畅度) [16] 关键测试结果 - **文字生成能力薄弱**:除Hailuo外所有模型均未能准确生成"JinQiu Capital Annual Summit 2025"字样 出现乱码或忽略指令 Veo3存在跨语言处理缺陷 [17][18][19] - **音画同步能力分化**:仅Veo3和百度蒸汽机默认输出音效 Veo3音画契合度最高 在ASMR测试中其玻璃质感音效表现最佳 [20][49] - **复杂动作链断裂**:宠物递礼盒任务中无一模型实现"从身后取出-递出"完整动作 变身企鹅任务中仅Pixverse基本实现变身牵手跳舞 [30][35][39] - **物理规律普遍违规**:潮汐墙形态异常 物体受力不合理(如飞船受力错误) 礼盒凭空出现或形态变化等问题广泛存在 [25][36][44][45] - **文化语义理解差异**:春节机器人拜年任务中仅Hailuo和百度蒸汽机准确生成中国传统"拱手"动作 其他模型呈现为双手合十 [26] 模型性能对比 - **综合表现领先模型**:Veo3在品牌场景结构完整性和音画同步方面突出 Hailuo在文字生成和文化动作准确性上优势明显 [21][26] - **可直接使用场景**:Veo3的节日物料视频具备直接使用价值 Midjourney在宠物任务中真实感强 Pixverse在变身任务动作连贯 [25][31][36] - **功能覆盖差异**:Veo3仅支持英文输入 百度蒸汽机与Kling具备中文音视频一体化能力 各模型定价策略差异显著(月费10-80美元不等) [12][19] 行业技术瓶颈 - 当前模型仍处于"点状生成"阶段 无法实现段落级叙事构建 在风格迁移测试中全部失败(如辛普森真人化转换) [51][55] - 核心限制包括动作链条断裂 物理规律脆弱 文字生成与跨语言处理薄弱三大短板 [39][45][51] 应用价值定位 - 核心价值在于解决"微任务":快速生成会议开场动画 社交媒体轻量化内容 创意视觉草图和ASMR片段 [52][56] - 无法替代拍摄剪辑 但可作为生产流程的辅助工具用于前期预演和过渡片段生成 [54] 技术演进方向 - 需从"能动"升级至"能演" 重点突破动作连贯性 镜头语言和情绪节奏控制 [53] - 从趣味生成工具转向工作流嵌入式组件 实现人机协同编导的多轮交互模式 [54][55]
海外AI内容版权:GoogleVeo3+YouTube+阜博
华福证券· 2025-08-26 13:14
行业投资评级 - 传媒行业评级为强于大市(维持评级)[7] 核心观点 - AI视频生成时代Google Veo3领跑 YouTube视频生态更加繁荣[2] - 阜博和YouTube达成深度合作为内容创作者提供版权管理[5] - 阜博作为头部版权SaaS服务商有望受益于产业趋势[6] 行业动态跟踪 - Google Veo3支持4K分辨率视频生成 集成Gemini API与Canvas创作平台 截至7月30日全球生成超7000万个视频[3] - Veo3通过文字或图像提示生成视频 首次集成原生音频生成能力 支持一站式生成带同步音频的高清视频[3] - Gemini应用向所有用户开放Veo3视频生成功能 免费用户可生成三条视频[4] - 7月增长最快的100个YouTube频道中有9个纯AI生成内容频道[4] - YouTube平均每分钟新增500小时视频 月活跃用户超25亿 每日观看时长超10亿小时 Shorts日播放量突破700亿次[4] - YouTube在2Q25广告收入同比+13.1%至98亿美元[4] 版权合作与商业模式 - 全球盗版网站2024年总访问量达2160亿次[5] - 阜博拥有YouTube Facebook等平台API权限层级对接 可获得更多数据权限和技术支持[5] - RightsID利用专利内容识别技术进行实时视频审核 监控未经授权内容使用 生成完整侵权证据链[5] - 阜博2024年订阅业务同比+27%至11亿港元 增值业务同比+15%至13亿港元[6] - 推出AIGC视频平台DreamMaker 基于英伟达Media2技术构建 利用英伟达加速基础设施[6] - 推出MAX版权交易平台 利用AI赋能所有权自动化登记和发行变现 支持微短剧等RWA并发确权及交易[6]
水果刀切万物:AI做起了ASMR视频
虎嗅· 2025-08-01 15:36
AI ASMR视频内容趋势 - AI生成的反常识切水果视频在Tiktok爆火 账号5天涨粉十几万并引发跟风模仿 [1][7] - 猎奇类内容涵盖冰键盘敲击声、沉浸式钻石披萨吃播、粘土风微缩景观及动画改编吃播 突破物理限制创造感官新体验 [9][11][13][15] - 部分AI ASMR涉及软色情内容 如"情人悄悄话"系列被质疑涉嫌违规 [17] 多模态生成技术突破 - 谷歌Veo3实现音视频同步生成 支持4K输出且音频适配率出色 显著降低创作门槛 [19][20][22] - 此前需通过ElevenLabs等工具分离生成音视频 尤其人物口型同步难度较高 [21] - 音视频同步成为生成式AI关键节点 国内快手可灵2.1、字节SeedFoley均实现同步生成功能 [31][32][34][37] 厂商产品布局与商业化 - 主流视频生成模型支持时长5-85秒 谷歌Veo3采用订阅与按量计费双模式 快手可灵订阅价66-666元/月 [39] - 字节即梦通过Seedance1.0模型开放API MiniMax海螺02支持1080p原生输出且性价比突出 [39][55] - 创作者混合使用多平台工具 即可灵生成音效更真实 即梦文字生图细节更精准 [40][42] 商业化变现路径 - 头部创作者通过售卖提示词(9.9美元)及付费课程变现 专业账号月入过万 [48] - 平台流量分成与广告植入收益显著 单条视频报价达6.5万 [48][50] - 解压类品牌(香薰、游戏影视)将产品植入AI切割场景进行营销 [51] 行业规模与增长 - 快手可灵9个月累计收入超1亿人民币 2025年Q1年化收入(ARR)突破1亿美元 [56] - 头部视频生成产品年化收入预计2025年达1亿美元 2026年增至5-10亿美元 [60] - 快手可灵全球创作者超4500万 累计生成视频2亿个 图片4亿张 [61] 竞争格局与战略优势 - 字节Seedance1.0登顶文生视频/图生视频排行榜 快手可灵与MiniMax紧随其后 [55] - 平台依托短视频生态构建闭环:快手整合创作者与视频数据 字节联动剪映与抖音分发 [61][62] - 技术迭代需匹配用户偏好变化 持续降低创作门槛与差异化体验成竞争核心 [63]
谁在AI ASMR淘金热中赚翻了?创作者卖模版,平台争霸商业化元年
36氪· 2025-08-01 10:05
AI ASMR视频热潮 - AI生成的ASMR视频在全球短视频平台掀起解压与猎奇热潮,如切水果、冰键盘、硬核吃播等类型,5天涨粉十几万的账号引发跟风模仿[1][7][8][9] - 技术突破现实物理限制,与ASMR融合创造新感官体验,谷歌Veo3等模型降低创作门槛,催生现象级账号与百万级流量[6] - 吸引快手、字节跳动、MiniMax、百度等巨头加速布局,催生从提示词售卖到流量分成的多元盈利模式[6] 技术支撑与创新 - 谷歌Veo3模型实现音视频同步生成,支持4K输出,简化流程至输入提示词即可量产,如刀切玻璃水果等作品[14][15] - 字节跳动SeedFoley和快手Kling-Foley模型实现视频音效智能生成,支持语义贴合、时间同步的立体声音频[21][23][25] - 视频生成时长普遍为5-10秒,厂商差异化竞争:Veo3支持60秒,可灵2.1版画质更佳,即梦文字转视频更流畅[20][26][28] 商业化变现与市场前景 - 创作者通过付费模版(9.9美元)、广告分成(单条视频报价6.5万)、品牌植入(香薰、游戏等)实现月入过万[30][31][33] - 厂商商业化路径清晰,快手可灵上线9个月收入超1亿人民币,2025年Q1 ARR突破1亿美元,头部产品年化收入预计达5-10亿美元[35][37] - 短视频平台凭借"创作-分发-变现"闭环优势,如快手可灵全球用户超4500万,生成视频2亿个,字节即梦链接剪映与抖音生态[38] 行业竞争格局 - 国内外厂商加速布局:Google Veo3、字节即梦、快手可灵、MiniMax海螺AI等,差异化聚焦画质、音效、生成时长[26] - 技术迭代推动商业化拐点,2025年被视为图像生成商业化元年,国内视频生成赛道全球化与商业化成熟度领先[34][37] - 平台需持续降低创作门槛、提升差异化体验,平衡规模化与盈利,以切分AI视频生成市场蛋糕[39]
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
中金点睛· 2025-08-01 08:09
技术路径演进 - 2024年OpenAI发布Sora后视频生成技术路径收敛至DiT(Diffusion Transformer)架构,取代了此前图像拼接、自回归扩散等混合路径[2][4] - DiT架构通过时空注意力联合建模实现89%的生成一致性,支持60秒长视频生成和多分辨率输入,物理模拟能力显著提升[7][11] - 仍存在自回归路径分歧,OpenAI GPT-4o和Sand AI采用自回归模型,认为其对长时间序列建模更合适[14] - 技术发展将沿两个方向延伸:端到端多模态大模型(如Google Gemini)和多模态理解生成统一架构(如DeepSeek Janus-pro)[16][17] 市场空间与格局 - 2024年全球AI视频生成市场规模约6亿美元,中期P端+B端市场空间有望达100亿美元[3][22] - P端市场中性测算空间32亿美元,基于1.6亿国内创作者和2亿海外创作者的付费渗透率假设[23][24] - B端市场中性测算空间94亿美元,主要来自广告、电商视频和影视行业的AI渗透[25][26] - 2025年竞争格局集中,快手可灵以20%市占率领先,Runway、海螺、爱诗等中国厂商占据主要份额[27][28] 中国厂商表现 - 中国公司在模型能力和产品力上超越海外,快手可灵2025年ARR超1.5亿美元全球领先[3][22] - 技术榜单显示字节Seedance、MiniMax海螺、快手可灵在文生视频和图生视频排名靠前[39][40][41] - 产品定位分化:可灵、海螺专注P端/B端专业用户;爱诗PixVerse、字节即梦主攻C端低门槛市场[45][48] - 商业模式以订阅制为主,高质量模式单秒定价进入0.4-2元区间,已触及创作者价格不敏感阈值[50][51] 技术应用与影响 - 视频生成已初步渗透影视、电商、广告场景,顶级动画电影制作成本从200万美元/分钟降至300美元/分钟[22][31] - 生成时长10秒内已满足多数需求,核心矛盾转向角色一致性和提示词理解能力[38] - 多模态技术重构内容生产流程,催生Prompt导演、审美把关人等新岗位,传统视频剪辑等职位面临转型[31] - 开源生态加速发展,快手Orthus、通义万相等开源模型推动行业技术民主化[19][37]