视频生成
搜索文档
快手业绩会:加大AI投入 预计今年可灵收入约1.4亿美元
21世纪经济报道· 2025-11-19 22:37
公司财务业绩 - 第三季度总营收同比增长14.2%至356亿元人民币 [1] - 核心商业收入同比增长19.2% [1] - 经营利润同比增长69.9%至53亿元人民币 [1] - 经调整利润净额同比增长26.3%至50亿元人民币 [1] - 可灵AI在三季度营业收入超过3亿元人民币 [1] 可灵AI业务表现与展望 - 可灵AI预计2025年全年收入约1.4亿美元,远超年初制定的6000万美元目标 [3] - 公司产品定位聚焦于AI影视创作核心目标 [2] - 当前主要精力面向专业创作者,提升使用体验和付费意愿,同时探索C端应用场景 [3] - 9月底推出2.5 Turbo模型,在文本响应、动态效果等多个维度实现大幅提升 [2] 行业竞争与战略 - 视频生成赛道竞争激烈,行业处于快速技术迭代和产品形态探索的早期阶段 [2] - 公司认为可灵AI依靠技术与产品创新,处于全球视频生成赛道第一梯队 [2] - 公司将围绕技术领先性与产品想象力双线推进迭代,结合多模态交互理念持续升级 [2] - Sora 2等产品加速了视频生成与社交互动融合,C端消费级应用落地进程加快 [3] 公司资本支出计划 - 受可灵AI等业务超预期发展带动,公司将继续加大算力等AI相关投入 [3] - 预计2025年集团整体Capex支出将较去年实现中高双位数的同比增长 [3] - 尽管AI相关投入增加,公司仍有充分信心实现全年经调整经营利润率的同比提升 [3]
可灵AI全年收入约1.4亿美元,快手继续加大算力投入
第一财经· 2025-11-19 22:24
财务业绩 - 2025年第三季度总营收同比增长14.2%至356亿元人民币 [1] - 经调整净利润同比增长26.3%至50亿元人民币 [1] - 线上营销服务收入同比增长14%至201亿元,占总营收56.4% [1] - 直播业务收入同比增加2.5%至96亿元,占总营收26.9% [1] - 其他服务收入同比大幅增长41.3%至59亿元,占总营收16.5%,主要由电商和可灵AI业务驱动 [1] - 三季度电商业务GMV同比增长15.2%至3850亿元 [1] - 可灵AI营业收入超过3亿元人民币 [1] 可灵AI业务发展 - 可灵AI是财报电话会的沟通重点,公司聚焦于AI影视创作这一核心目标 [2] - 行业处于快速技术迭代和产品形态探索的早期阶段,竞争加速行业进步 [2] - 公司围绕多模态交互理念持续升级基础模型与产品能力 [2] - Sora2等竞品将视频生成与社交互动结合,加快了C端消费级应用的落地进程 [2] - 公司计划在合适时点将可灵技术能力产品化,与社交互动结合以加速C端商业化 [2] - 可灵AI预计2025年全年收入约1.4亿美元,显著高于年初制定的6000万美元目标 [3] AI技术内部应用与投入 - 受可灵AI等业务超预期发展带动,公司将继续加大算力等AI相关投入 [3] - 预计2025年集团整体资本性支出将较去年实现中高双位数的同比增长 [3] - 自研AI编程工具CodeFlicker已成为工程师日常高频使用工具,新增代码中由其生成的比例接近30% [3] - AI大模型应用于用户画像、内容识别、评论识别等多个内容审核场景 [3] - 超过70%的用户咨询量由AI智能客服直接响应并解决 [3] 行业趋势与竞争格局 - 视频生成赛道涌现出来自互联网大厂与创业公司等众多参与者,显示其巨大潜力 [2] - Sora2的社交互动功能包括“客串”、“二创”和类TikTok的社交信息流三大支柱 [3] - 竞品设计形成了“观看-受启发-创作-分享-获得反馈”的闭环生态,有望重塑短视频生态 [3]
快手(01024)程一笑:可灵AI将重点聚焦AI影视制作场景 视频生成赛道仍在早期
智通财经· 2025-11-19 19:52
行业竞争格局与阶段 - 当前视频生成赛道涌现众多来自互联网大厂与创业公司等不同类型的参与者,体现出该赛道极具潜力 [1] - 行业仍处在快速技术迭代和产品形态探索的早期阶段 [1] - 整个行业正通过竞争加速进步,推动视频生成技术更好满足用户需求并渗透更多应用场景 [1] 公司技术实力与市场地位 - 可灵AI依靠持续的技术与产品创新,始终处于全球视频生成赛道的第一梯队 [1] - 9月底推出的可灵2.5 Turbo模型在文本响应、动态效果、风格保持、美学质量等多个维度实现大幅提升 [1] - 模型发布十天后,同时登上知名AI测评机构Artificial Analysis的全球文生视频和图生视频榜单第一名 [1] 产品定位与迭代策略 - 可灵的愿景是“让每个人都能用AI讲出好故事”,公司聚焦于AI影视创作这一核心目标 [2] - 迭代方向围绕技术领先性与产品想象力双线推进,结合多模态交互理念(如MVL)持续升级基础模型与产品能力 [2] 创作者生态与品牌合作 - 通过“未来合伙人计划”整合快手与可灵AI核心资源,为创作者精准匹配多场景高价值商单,目前已合作包括NBA和蜜雪冰城等知名品牌 [2] - 通过“NEXTGEN全球新影像创作大赛”帮助多位可灵AI创作者在戛纳电视节、釜山国际电影节、东京国际电影节等行业头部影视展会展映作品 [2] 商业化路径与未来展望 - 随着Sora 2等产品将视频生成与社交互动深度融合,C端消费级应用的落地进程明显加快 [3] - 当前主要精力面向专业创作者,提升其使用体验和付费意愿 [3] - 公司保持在C端应用场景的探索,计划在未来合适时点将可灵的技术能力进一步产品化,与社交互动结合以加速C端商业化 [3]
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral
量子位· 2025-11-14 13:38
技术突破与核心优势 - 提出InfinityStar方法,通过时空金字塔建模统一处理图像和视频生成任务,核心是将视频分解为首帧(外观信息)和后续片段(动态信息)进行解耦建模[13][14][15][16] - 采用纯自回归生成方式,相比DiT(Diffusion Transformer)所需的20-100步去噪迭代,实现"一条过"生成,计算效率提升一个数量级[4][25][31] - 在单张GPU上生成5秒720p视频仅需不到1分钟,比同尺寸DiT方法(如HunyuanVideo、Wan-Video)快一个数量级[31] 模型架构创新 - 引入时空金字塔建模架构,将图像金字塔的下一尺度预测思想扩展到时空维度,使用单一Transformer统一建模所有尺度间和片段间依赖关系[13][16] - 采用基于多尺度残差量化的视觉分词器,并应用知识继承技术加速训练,通过继承预训练连续分词器权重使离散分词器更快收敛[18][19] - 提出随机量化器深度正则化技术,随机丢弃精细尺度Token,迫使模型在粗糙尺度下也能重建有效信息,改善信息分布均衡性[21] 性能优化技术 - 设计语义尺度重复技术,在预测时对控制全局信息的语义尺度重复预测N次,增强视频结构一致性和运动流畅性[24] - 应用时空稀疏注意力机制,只关注必要上下文信息(如前一片段最后一个尺度),大幅降低长序列注意力计算复杂度[24] - 引入时空RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感知[24] 多任务能力 - 支持文生图、文生视频、图生视频、交互式长视频生成等多种任务,所有任务均统一为"预测下一个尺度/片段"的自回归问题[9][12][16] - 具备交互式长视频生成能力,可根据5秒参考视频和新提示词持续生成后续内容[12] 性能表现 - 在VBench基准测试中,InfinityStar-8B在文生视频任务上取得83.74综合得分,超越CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24)等扩散模型[27][28] - 人类偏好评估显示InfinityStar-8B在指令遵循方面优于HunyuanVideo-13B[29] - 文生图任务在GenEval和DPG基准上表现优异,在位置和物体关系方面具有明显优势[25]
AI 大牛刘威创业公司完成 5000 万美元融资,12 月将发布新模型
AI前线· 2025-11-07 14:41
公司融资与战略规划 - 公司Video Rebirth完成5000万美元种子轮融资,投资方包括启明创投和韩国游戏公司Actoz Soft Co [2] - 融资将用于加速自研的"Bach"模型及独有的"物理原生注意力"架构研发,解决AI生成娱乐领域的挑战性问题 [2] - 公司计划在12月发布Bach模型以及基于自研模型的AI视频生成平台,与OpenAI Sora竞争 [2] - 公司初期将重点面向美国专业用户群体,采用低于Google Veo的月订阅模式 [4] 技术实力与产品进展 - 公司新模型Avenger 0.5 Pro在Artificial Analysis Video Arena的图像生成视频项目中排名第2位,仅次于Kling 2.5 Turbo [3] - 该模型相较于7月发布的Avenger 0.5有显著性能提升,但尚未提供公开访问入口 [3] - 公司团队避免使用短视频内容进行训练,以确保更高的模型质量,并使生成的物体更符合现实世界的物理规律 [4] - 公司创始人刘威和两位同事花了三个月时间训练出第一个版本的模型,基于业内常用技术并进行改进 [4] 行业竞争与市场机会 - 公司即将进入竞争激烈的领域,对手包括谷歌、字节跳动、快手等巨头 [3] - 创始人认为在视频生成领域,华人创办的小团队有很好的机会能与巨头公平竞争,与大语言模型格局已定型不同 [4] - 部分现有视频生成应用已展现出强劲变现能力,例如快手预计其Kling AI的年收入在明年2月将突破1亿美元 [3]
在夹缝中生存12年,他终于打造了国产AI活跃用户数第一的产品|WAVES
36氪· 2025-10-31 01:47
公司概况 - 公司为成都的图像编辑与AI应用公司Fotor,创始人为段江 [1] - 产品Fotor是一款月活用户过千万的AI应用,常年位列AI应用出海榜中国前列 [1] - 公司成立于约12年前,最初定位为“轻量Photoshop”,后转型AI图像生成 [1][4] 用户与市场表现 - 用户规模在生成式AI功能上线后翻了七倍 [1][4] - 月活用户超过千万,并实现规模化盈利 [1] - 核心市场为英语国家(美国、英国、加拿大、澳大利亚、新西兰),这五个国家贡献公司80%的收入,占海外用户流量的40% [6] - 通过AI Image Generator、AI Art Generator等关键词搜索获客,用户画像广泛,涵盖专业用户和普通消费者 [9] 产品与技术发展 - 2022年8月,公司暂停所有项目,基于开源的Stable Diffusion,利用自身积累的高质量图片数据,在两个月内上线文生图功能 [3][4] - 产品功能丰富,包含AI图像生成、图像处理(PS)、平面设计等几十个功能,旨在打造一站式平台 [9] - 2024年3月上线一站式AI长视频平台Clipfly,集合AI视频生成、增强、编辑等功能,但视频生成部分采用简单开源方案,未大规模投入 [7][8] - 当前战略是打造“AI剪映”,重点放在工作流建设而非核心技术自研 [7][8] 融资与财务历程 - 2012年获得联想系资本300万美元融资 [4] - 2017年第一轮融资用完,在几乎被所有风投拒绝后,从免费转向付费模式,随后实现盈利并获得广发证券2500万人民币的B轮融资 [2][5] - 在用户量爆发前,公司曾应投资人要求进行股份回购,几乎耗尽账面现金 [2][4] - 用户爆发后,公司回绝超过100家投资机构,因已积累大量现金并实现月度盈利 [7] 战略选择与竞争定位 - 创立初期因资金远少于竞争对手(如美图),选择避开国内移动端红海市场,主攻海外PC端,依靠SEO获客 [4][5] - 七年前因融资困难被迫提前开启付费模式,意外发现海外用户付费意愿较高 [2][5] - 在AI视频生成领域,面对Sora等强大竞争对手,公司选择暂避锋芒,回归自身在图像工具和工作流方面的舒适区 [7][8] - 公司定位为将AIGC与传统图像工具结合的产品公司,学习字节跳动的“App工厂”模式,通过不断增加功能来吸引和留住用户 [9]
美团LongCat-Video视频生成模型发布:可输出5分钟长视频
凤凰网· 2025-10-27 15:32
公司技术发布 - 美团LongCat团队正式发布LongCat-Video视频生成模型 [1] - 模型基于Diffusion Transformer架构,支持文生视频、图生视频及视频续写三类核心任务 [1] - 模型宣称在开源模型中达到先进水平 [1] 模型技术规格 - 模型可生成720p分辨率、30帧率的高清视频 [1] - 模型能够原生生成长达5分钟的连贯视频内容 [1] - 模型通过视频续写预训练、块稀疏注意力等机制解决长视频生成中的画面断裂、质量下降问题 [1] - 模型参数量为136亿 [1] 模型性能与效率 - 模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,推理速度提升超过10倍 [1] - 模型在VBench等公开测试中表现出较强的文本对齐与运动连贯性 [1] 技术应用与战略意义 - 模型作为构建"世界模型"的技术尝试,未来或可应用于自动驾驶模拟、具身智能等长时序建模场景 [1] - 该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步 [1]
AI时代的短视频:Sora2的答案
新财富· 2025-10-24 16:08
Sora 2 的技术突破与产品定位 - 核心突破在于首次实现“长时叙事完整性”与“物理逻辑真实性”的规模化平衡,物理规律符合率较初代提升47个百分点至88% [8] - 实现音画一体化生成,声画同步误差小于120毫秒,并支持多镜头叙事,可生成逻辑连贯的2分钟级长视频 [9][10] - 产品形态为短视频应用,用户可通过提示词生成视频并进行二创,浏览方式为主流的上下滑动刷新 [2] Sora 2 的流量获取与社交功能 - 通过Cameo功能用户可复制自身形象与声音并植入AI生成场景,通过Remix功能允许用户对他人视频进行二次创作 [11] - 平台允许用户只浏览不创作,旨在打破创作者圈子以实现广泛传播,类似于早期小咖秀通过低门槛和强娱乐性完成流量原始积累 [4][15] OpenAI 的战略转型与商业化进程 - 公司正从研究型企业向产品生态构建者转型,通过APP ADK将ChatGPT变为“AI应用商店”并接入Uber等11家企业 [17] - 推出OpenAI浏览器Atlas和降低开发门槛的Agent Kit,单人不到7分钟即可完成一个可部署应用,人效提升超20倍 [18] - 商业化加速源于资金压力,2025年上半年现金消耗达25亿美元,全年预计85亿美元,且与软银的对赌协议要求年底前完成向营利性公司转型 [20] 行业竞争格局 - 谷歌Veo 3.1模型新增视频控制功能并能生成背景音乐,但未达预期,模型质量无明显进步,在复杂场景下物理规律易出错 [19] - OpenAI在谷歌发布Veo 3.1几小时后立即宣布Sora 2更新,凸显视频生成领域竞争激烈 [18] AI视频应用的挑战与前景 - AI视频应用面临留住稳定流量的挑战,关键在于能否像抖音一样通过推荐算法持续吸引用户注意力 [22] - 制作门槛降低可能反而提高创作门槛,吸引人的决定因素更侧重于想法的质量 [24]
四款视频大模型横评:从“概念演示”迈向“准实时创作”
海通国际证券· 2025-10-17 17:11
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告核心观点 - 视频生成技术正从“概念演示”阶段迈向“准实时创作”阶段 [1] - 在付费分层与算力约束并存的背景下,视频大模型的商业化路径日趋清晰 [4] - 国内外模型生态差距正逐步收窄,竞争焦点转向算力储备、数据质量与产品细节打磨 [3] - 该技术演进将推动影视产业资源更精准地配置于核心价值环节,大幅压缩前期方案验证成本 [5] 模型性能横评总结 - 四款主流视频生成模型(Sora 2, Veo 3.1, 可灵, 即梦)生成速度普遍较快,平均仅需1至2分钟即可生成一段5秒视频 [1][2] - Veo 3.1在风格还原、构图意图及镜头语法理解方面表现最为准确 [1][2] - Sora 2在动态模糊、景深与材质反射方面的写实感最强,观感接近实拍,但其产品形态更侧重移动端竖屏信息流,导致横屏输出能力与画面清晰度相对偏向轻量化 [1][2] - 可灵与即梦在中文友好度与易用性上表现突出,与海外顶级模型的差距正在快速收敛 [1][3] 模型规格与生态比较 - Veo 3.1的API预览支持4/6/8秒短片,其Flow功能引入“场景续写”最长可延展至约1分钟段落,并支持16:9与9:16画幅输出 [7] - Sora 2的官方应用默认生成10秒竖屏视频,支持Portrait/Landscape切换,并提供“Cameos”功能可将用户形象嵌入视频 [7] - 可灵官方发布可生成时长至2分钟、1080p、30fps的视频,并在质量、稳定性与成本上持续迭代 [7] - 即梦作为字节跳动旗下平台,与剪映/抖音生态结合紧密,提供从文本到视频的一站式创作体验,会员配额适合高频产出 [3][7] 商业化与基础设施 - OpenAI首席执行官Sam Altman已公开表明,新一代高算力功能将优先面向付费用户开放,并可能对Sora 2等视频生成能力实施分级收费机制 [4] - 基础设施层面正经历“超级计算中心化”变革,以微软与OpenAI筹划中的“Stargate”百亿美元级超算数据中心为代表的大规模产业投资正在进行 [4] - 国际能源署预测,至2030年全球数据中心耗电量或将翻倍至约945 TWh,其中AI推理是核心增长驱动力,这从成本端固化了视频生成服务的高溢价属性 [4] 对影视产业的影响 - 在广告、预告片、预视觉化等前期方案验证中,AI视频技术将大幅压缩勘景、实拍与特效制作的试错成本 [5] - 结合Veo 3.1等具备镜头级控制能力的工具,从剧本到样片的迭代周期有望从“周级”缩短至“小时级” [5] - 一种“低成本验证、高投入精制”的混合工作流变得可行:AI先生成低清晰度内容雏形用于审核试映,确认方向后再由传统制作管线进行高精度复刻与精修 [5]
Sora2甚至可以预测ChatGPT的输出
量子位· 2025-10-02 13:30
文章核心观点 - Sora2展现出超越视频生成的多模态能力,包括预测大语言模型输出、渲染HTML代码、理解物理现象和精准还原游戏细节,模糊了视频生成与交互式AI的边界 [6][13][26] 多模态交互能力 - Sora2能够模拟与ChatGPT的交互过程,生成包含问题提问和语音回答的完整视频,例如根据提示生成关于猫的俳句并配以机械女声回答 [4][5] - 该模型展现出理解并执行复杂指令的能力,其生成的俳句音节严丝合缝,体现了对语言结构的把握 [5] 代码渲染与浏览器模拟功能 - Sora2具备渲染HTML代码的能力,根据粘贴的HTML代码生成的视觉效果与真实浏览器渲染效果高度相似 [7][8][10][12] - 该功能表明模型可能超越了传统视频生成器的范畴,展现出类似浏览器的渲染能力 [13] 物理现象理解能力 - 在未明确提示的情况下,Sora2能够准确模拟玻璃折射的物理现象,如通过装满水的玻璃杯展现箭头图像的翻转效果 [14][15][16][18] - 这种对物理世界的深入理解能力获得了行业观察者的高度评价 [19] 游戏内容还原精度 - 根据《赛博朋克2077》支线任务的提示词,Sora2能够精准还原游戏中的关键要素,包括地图位置、生物群落、地形、车辆设计和帮派名称 [21][22][24] - 尽管在巨蜥坦克移动方式和帕纳姆位置两个细节上存在微小误差,但从海量信息中准确提取并整合支线任务要素的能力反映了模型较强的信息处理智能 [25]