Workflow
视频生成大模型
icon
搜索文档
可灵3.0模型登顶全球视频生成大模型榜单
智通财经· 2026-02-26 09:25
行业动态 - 全球知名AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单 [1] - AI正式进入影视工业级视觉生产的核心环节 [1] 公司表现 - 可灵3.0系列模型(Kling 3.0 Pro)以1,240的Arena ELO基准测试评分位居文生视频赛道第一位 [1] - 在前15名中可灵共有7个模型在榜 [1] 技术优势 - 此前发布的可灵3.0模型在视频真实感、一致性和可控性上具备行业领先优势 [1]
豆包Seedance 2.0全端上线
新浪财经· 2026-02-12 23:27
公司产品发布与技术升级 - 字节跳动旗下豆包于2月12日正式宣布,其视频生成大模型Seedance 2.0已接入豆包App、电脑端与网页版,并向全平台用户开放 [1] - 用户可通过豆包App对话框新增的Seedance 2.0入口,输入提示词生成5秒或10秒的短视频 [1] - 该模型支持分身视频功能,用户完成真人验证后即可创建个人视频分身,以拓展创意场景 [1] 核心技术能力 - Seedance 2.0在技术层面实现了三大核心能力升级:原声音画同步、多镜头长叙事以及多模态可控生成 [1] - 用户输入提示词与参考图后,可一键生成带完整原生音轨的多镜头视频 [1] - 模型能够自动解析叙事逻辑,确保视频中的角色、光影、风格与氛围保持高度统一 [1] 产品功能限制 - 官方提示,当前Seedance 2.0版本暂不支持用户上传真人图片作为视频主体的参考 [2]
Seedance2.0暂停真人素材参考能力
YOUNG财经 漾财经· 2026-02-10 10:30
事件概述与公司应对 - 字节跳动旗下视频生成大模型Seedance 2.0在发布后,因自媒体评测发现其能在未获得授权、未提供声音文件的情况下,仅凭上传的人脸图像就生成高度相似的声音和画面风格,引发了广泛关注和关于隐私与授权的担忧[2] - 相关事件发酵后,公司紧急暂停了该模型的真人素材参考能力,官方运营人员表示此次内测收获了远超预期的关注,为保障创作环境的健康可持续,正针对反馈进行紧急优化,目前暂不支持输入真人素材作为主体参考[2][4] 产品与市场反应 - 产品调整在用户社区中引发了部分创作者的困惑,例如有创作者表示对已报名但尚未制作的“爱乐之城”IP项目感到不知所措[5] - 尽管产品功能临时调整带来不便,部分用户社区成员表达了希望功能不要被下线的诉求,并对公司的调整表示理解与支持[4][5]
字节跳动Seedance 2.0暂停真人素材参考能力
新浪财经· 2026-02-10 09:03
Seedance 2.0模型发布与评测事件 - 字节跳动旗下Seedance 2.0视频生成大模型发布并引发热议 [1][3] - 自媒体影视飓风创始人Tim(潘天鸿)发布评测,指出仅上传个人脸部图像,AI模型便生成了高度相似的声音,而Tim并未提供声音文件或授权 [1][3] - Tim表示个人未给予官方授权也未收费,对此现象感到“恐怖” [1][3] 模型能力与引发的争议 - 在用户未上传对应素材的情况下,模型生成了高度相似的声音和画面风格,引发广泛关注 [1][3] - 该事件凸显了AI视频生成模型在未经明确授权下,复制个人生物特征(如声音)的潜在能力 [1][3] 公司的应对措施 - 相关事件发酵后,字节跳动对Seedance 2.0采取了紧急措施,暂停了真人素材参考能力 [1][4] - 官方运营人员表示,内测期间收获了远超预期的关注,为保障创作环境健康可持续,正针对反馈进行紧急优化 [1][4] - 目前产品暂不支持输入真人素材作为主体参考,官方强调“创意的边界是尊重” [1][4] - 产品处于调整期,公司期待以更完善的面貌正式与用户见面 [1][4]
字节跳动Seedance 2.0紧急暂停真人素材参考能力
新浪财经· 2026-02-10 08:57
事件概述 - 字节跳动旗下Seedance 2.0视频生成大模型发布 引发广泛热议和关注[1][3] - 自媒体影视飓风创始人Tim(潘天鸿)发布评测 指出在仅上传个人脸部图像、未提供任何提示和声音文件的情况下 AI模型生成了与其高度相似的声音[1][3] - 该评测引发了对AI模型在未获授权情况下使用个人生物特征数据的担忧和关注[1][3] 公司应对措施 - 相关事件发酵后 字节跳动Seedance 2.0紧急暂停了真人素材参考能力[1][4] - 官方运营人员表示 内测期间收获了远超预期的关注 为保障创作环境的健康可持续 正针对反馈进行紧急优化[1][4] - 目前产品暂不支持输入真人素材作为主体参考 官方称深知创意的边界是尊重[1][4] 产品与市场反应 - Seedance 2.0处于内测阶段 其视频生成能力 特别是对未提供素材的真人特征(如声音和画面风格)的模仿和生成能力 成为关注焦点[1][3] - 自媒体创作者的评测直接触发了产品功能的紧急调整 表明市场对AI伦理和数据隐私问题高度敏感[1][3][4]
港股异动丨快手拉升涨近4%,可灵AI月活突破1200万
格隆汇· 2026-01-21 14:47
公司股价表现 - 快手-W(1024.HK)股价拉升,上涨近4%,报78.9港元 [1] 核心业务进展 - 公司旗下视频生成大模型可灵AI的月活跃用户(MAU)在今年1月突破1200万 [1] - 可灵AI在2025年的全年收入预计将达到1.4亿美元 [1] - 该预计收入远超公司于2025年初定下的6000万美元收入目标 [1]
盖坤访谈:赢在判断与时机,可灵AI仍在全球市场加速前行
华尔街见闻· 2026-01-07 20:43
文章核心观点 - 资本市场对AI的关注点正从模型性能竞赛转向产品化与商业化能力 快手通过其AI视频生成产品“可灵”迅速实现战略转型 并在全球市场取得显著商业化进展 成为推动其股价上涨的关键因素 [1][3][7] 快手AI战略转型与市场表现 - 过去18个月里 快手迅速向人工智能领域进行战略转型 AI战略路径愈发清晰 [1][7] - 公司股价在过去一年累计上涨88% 成为中国AI相关公司中备受关注的标的之一 [3][7] - 公司市值约410亿美元 已重新赢得投资者青睐 这在很大程度上归功于可灵AI带来的稳定收入 [12] 可灵AI产品市场表现与商业化 - 截至1月2日 可灵AI应用是韩国和俄罗斯iPhone上收入最高的图形与设计类应用 并在美国、英国、日本、澳大利亚和土耳其等市场位列前十 [2][7] - 应用已积累6000万用户 销售额正随着海外市场品牌认知度提升而加速增长 [7] - 预计2025年可灵AI的商业收入将达到1.4亿美元 [3][7] - 截至2025年第一季度 可灵收入约70%直接来自用户订阅 其余来自企业客户或开发者 [15] - 付费订阅计划每月费用从7美元到超过100美元不等 与同行大致相当 但在商业化方面显示出更快的进展 [14] - 已有超过3万家企业及开发者接入其API [12] 产品开发策略与竞争优势 - 公司不愿在与OpenAI的竞赛中落后 在OpenAI预告Sora后 设定了激进目标并于2024年6月完成可灵首轮上线 7月正式推出面向全球用户的会员订阅服务 [8] - 公司避开了烧钱打造通用基础模型的竞赛 可灵拥有独立的盈亏结构 像内部初创公司一样运作 [14] - 在全球基准测试网站Artificial Analysis上 可灵是唯一一个在文生视频和图生视频性能上都位列前三的中国模型 [12] - 可灵最新推出的O1模型能够同时处理文本、图像和视频提示 其动作控制功能在海外社交平台上反响热烈 [13][18] - 与知名竞争对手在AI上的巨额投入相比 快手仅花费了其中的一小部分 [7] 领导层观点与未来展望 - 公司高级副总裁盖坤强调“时机”至关重要 认为这是一场资源受限的竞争 [9] - 盖坤预测未来将出现围绕AI原生视频的娱乐形态 而不仅仅是在既有平台中叠加生成内容 这样的变化可能在未来一到三年内发生 [5][15] - 盖坤的下一个目标是建立一个专注于AI原生视频的内容平台 认为如果快手想成为第一个建立此类平台的公司 机会窗口非常有限 [9] - 盖坤将公司描述为一个中等规模的参与者 这意味着公司并没有取之不尽的资金投入 最佳机会在于精确把握产品推出时机并减少失误 [12] 行业竞争格局 - 在以视频为重点的领域 可灵与美国的竞争对手Runway和Luma AI竞争 这两家公司去年各自筹集了数亿美元资金 估值达到30亿或更高 [14] - OpenAI的Sora 2视频工具包含在每月200美元的ChatGPT Pro订阅中 [14] - Sora和Google Veo等美国服务在中国无法使用 这有助于可灵在国内的发展 [15] - 可灵的付费用户大多在海外 主要用户群体包括电影制片厂、营销人员和社交媒体影响者 [15]
美团首个视频大模型开源,速度暴涨900%
36氪· 2025-10-27 17:13
模型发布与核心特性 - 公司开源其首款视频生成大模型LongCat-Video,旨在以统一架构支持文生视频、图生视频及视频续写三种能力 [1] - 模型通过多任务联合训练机制处理零帧、单帧及多帧条件输入,原生支持输出5分钟级别长视频,并保持较高的时间一致性与视觉稳定性 [1] - 模型采用"粗到细"两阶段生成策略,结合块稀疏注意力机制和模型蒸馏,使视频生成推理速度提升至原来的10.1倍,提速幅度超900% [1][12][13] 技术架构与训练方法 - 模型采用基于Diffusion Transformer的单流三维结构,融合扩散模型生成能力与Transformer长时序建模优势,并使用3D RoPE位置编码 [7] - 通过VAE将视频像素压缩成潜空间token,整体压缩率高达4×16×16倍,文本输入由umT5多语言编码器处理以支持中英文双语 [7] - 训练采用三阶段流程:基于Flow Matching框架的渐进式预训练、监督微调及基于组相对策略优化的强化学习,以提升生成质量 [9][10] 性能表现与基准测试 - 在VBench公开基准测试中,模型总得分达62.11%,仅次于Veo3和Vidu Q1,其中"常识理解"项以70.94%的得分位居所有开源模型第一 [2][20] - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越PixVerse-V5和Wan2.2等模型 [17] - 在图生视频任务中,模型画面细节丰富、风格真实,但在图像一致性和动作连贯性上仍有改进空间 [19] 战略定位与未来展望 - 该模型是公司开发"世界模型"的第一步,高效的长视频生成能解决世界模型中的渲染问题 [22] - 公司计划在视频生成中更好地建模物理知识,集成多模态记忆,并融入大语言模型和多模态大模型的知识 [22] - 模型生成的机器人操作、汽车驾驶等画面,预示其有望与公司在机器人、自动驾驶领域的业务布局产生协同效应 [22]
一码难求!Sora凭邀请制杀上苹果美区榜首,ChatGPT都得靠边站
格隆汇· 2025-10-04 19:08
产品发布与市场表现 - OpenAI于9月30日正式推出由Sora 2模型驱动的iOS社交应用"Sora",并迅速登顶美国App Store免费应用排行榜 [1] - 应用采用邀请制注册,导致邀请码在电商平台eBay上被出售,价格从10.99美元到45美元不等 [1] - 上线首日下载量达5.6万次,超过Claude首日2.1万次和Copilot首日7000次,与Grok首日安装量持平 [1] - 上线头两天累计吸引16.4万次安装,并在10月3日领先Google的Gemini和OpenAI自家的ChatGPT,登顶免费应用榜 [1] 技术能力与功能特性 - Sora 2模型相比首代模型在物理模拟精度上有质的飞跃,能更真实模拟失败场景,如未投中的篮球按物理规律从篮板反弹 [2] - 模型可控性实现突破,能执行跨越多个镜头的复杂指令,保持世界状态一致性,并在写实、电影和动漫等多种风格间切换 [2] - 模型能创建高度真实感的复杂背景语音和音效,并将现实世界元素直接注入生成环境中 [2] - 应用具备社交属性,用户可创作、混录彼此风格,在动态中发现新视频,并通过客串功能实现更深层次互动 [2] - 公司表示该应用专为与好友一起使用而设计,Cameo功能旨在增强社区凝聚力 [3] 商业化与市场拓展策略 - 应用初期在美国和加拿大免费提供,存在计算能力限制,ChatGPT Pro用户可使用更高质量的Sora 2 Pro模型,API版本发布已在计划中 [3] - 若需求量超过可用计算能力,公司计划允许用户支付一定金额来生成额外视频,目前用户生成视频数量远超预期 [3] - 公司计划与希望用户生成其角色的版权方分享部分收入,具体商业模式仍需尝试,推进计划将很快启动 [3] - 公司计划迅速将服务扩展到其他国家和地区 [3] 行业合作与投资动态 - 据《华尔街日报》报道,OpenAI告知好莱坞电影公司和经纪公司,Sora将使用他们拥有的角色和其他作品,若不同意则必须选择退出 [4] - OpenAI联合甲骨文、英伟达、软银等伙伴官宣一项8500亿美元的投资,用于建设总功率17GW的超大规模AI计算设施 [5]
可灵2.5Turbo模型登顶全球视频生成大模型榜单
格隆汇· 2025-10-02 14:48
公司产品表现 - 快手可灵2 5Turbo模型在Artificial Analysis全球视频生成大模型榜单中 图生视频赛道Arena ELO基准测试评分为1329 文生视频赛道评分为1252 均位列榜首 [1] - 该模型在文本响应 动态效果 风格保持 美学效果等维度保持全球领先 [1] - 可灵2 5Turbo模型于9月23日推出 上线仅10天即登顶榜单 此前可灵1 6模型和可灵2 0模型也曾登顶 [1] 行业竞争格局 - 快手可灵2 5Turbo模型在榜单中超越了Veo3 Ray3 PixVerse V5等其他模型 [1]