视频生成大模型
搜索文档
美团首个视频大模型开源,速度暴涨900%
36氪· 2025-10-27 17:13
模型发布与核心特性 - 公司开源其首款视频生成大模型LongCat-Video,旨在以统一架构支持文生视频、图生视频及视频续写三种能力 [1] - 模型通过多任务联合训练机制处理零帧、单帧及多帧条件输入,原生支持输出5分钟级别长视频,并保持较高的时间一致性与视觉稳定性 [1] - 模型采用"粗到细"两阶段生成策略,结合块稀疏注意力机制和模型蒸馏,使视频生成推理速度提升至原来的10.1倍,提速幅度超900% [1][12][13] 技术架构与训练方法 - 模型采用基于Diffusion Transformer的单流三维结构,融合扩散模型生成能力与Transformer长时序建模优势,并使用3D RoPE位置编码 [7] - 通过VAE将视频像素压缩成潜空间token,整体压缩率高达4×16×16倍,文本输入由umT5多语言编码器处理以支持中英文双语 [7] - 训练采用三阶段流程:基于Flow Matching框架的渐进式预训练、监督微调及基于组相对策略优化的强化学习,以提升生成质量 [9][10] 性能表现与基准测试 - 在VBench公开基准测试中,模型总得分达62.11%,仅次于Veo3和Vidu Q1,其中"常识理解"项以70.94%的得分位居所有开源模型第一 [2][20] - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越PixVerse-V5和Wan2.2等模型 [17] - 在图生视频任务中,模型画面细节丰富、风格真实,但在图像一致性和动作连贯性上仍有改进空间 [19] 战略定位与未来展望 - 该模型是公司开发"世界模型"的第一步,高效的长视频生成能解决世界模型中的渲染问题 [22] - 公司计划在视频生成中更好地建模物理知识,集成多模态记忆,并融入大语言模型和多模态大模型的知识 [22] - 模型生成的机器人操作、汽车驾驶等画面,预示其有望与公司在机器人、自动驾驶领域的业务布局产生协同效应 [22]
一码难求!Sora凭邀请制杀上苹果美区榜首,ChatGPT都得靠边站
格隆汇· 2025-10-04 19:08
产品发布与市场表现 - OpenAI于9月30日正式推出由Sora 2模型驱动的iOS社交应用"Sora",并迅速登顶美国App Store免费应用排行榜 [1] - 应用采用邀请制注册,导致邀请码在电商平台eBay上被出售,价格从10.99美元到45美元不等 [1] - 上线首日下载量达5.6万次,超过Claude首日2.1万次和Copilot首日7000次,与Grok首日安装量持平 [1] - 上线头两天累计吸引16.4万次安装,并在10月3日领先Google的Gemini和OpenAI自家的ChatGPT,登顶免费应用榜 [1] 技术能力与功能特性 - Sora 2模型相比首代模型在物理模拟精度上有质的飞跃,能更真实模拟失败场景,如未投中的篮球按物理规律从篮板反弹 [2] - 模型可控性实现突破,能执行跨越多个镜头的复杂指令,保持世界状态一致性,并在写实、电影和动漫等多种风格间切换 [2] - 模型能创建高度真实感的复杂背景语音和音效,并将现实世界元素直接注入生成环境中 [2] - 应用具备社交属性,用户可创作、混录彼此风格,在动态中发现新视频,并通过客串功能实现更深层次互动 [2] - 公司表示该应用专为与好友一起使用而设计,Cameo功能旨在增强社区凝聚力 [3] 商业化与市场拓展策略 - 应用初期在美国和加拿大免费提供,存在计算能力限制,ChatGPT Pro用户可使用更高质量的Sora 2 Pro模型,API版本发布已在计划中 [3] - 若需求量超过可用计算能力,公司计划允许用户支付一定金额来生成额外视频,目前用户生成视频数量远超预期 [3] - 公司计划与希望用户生成其角色的版权方分享部分收入,具体商业模式仍需尝试,推进计划将很快启动 [3] - 公司计划迅速将服务扩展到其他国家和地区 [3] 行业合作与投资动态 - 据《华尔街日报》报道,OpenAI告知好莱坞电影公司和经纪公司,Sora将使用他们拥有的角色和其他作品,若不同意则必须选择退出 [4] - OpenAI联合甲骨文、英伟达、软银等伙伴官宣一项8500亿美元的投资,用于建设总功率17GW的超大规模AI计算设施 [5]
可灵2.5Turbo模型登顶全球视频生成大模型榜单
格隆汇· 2025-10-02 14:48
公司产品表现 - 快手可灵2 5Turbo模型在Artificial Analysis全球视频生成大模型榜单中 图生视频赛道Arena ELO基准测试评分为1329 文生视频赛道评分为1252 均位列榜首 [1] - 该模型在文本响应 动态效果 风格保持 美学效果等维度保持全球领先 [1] - 可灵2 5Turbo模型于9月23日推出 上线仅10天即登顶榜单 此前可灵1 6模型和可灵2 0模型也曾登顶 [1] 行业竞争格局 - 快手可灵2 5Turbo模型在榜单中超越了Veo3 Ray3 PixVerse V5等其他模型 [1]
可灵2.5 Turbo模型上线 文本理解与响应、动态效果全面升级
环球网· 2025-09-24 17:57
产品发布与定价 - 公司推出视频生成可灵2.5 Turbo模型,同步更新文生视频和图生视频两大功能 [1] - 新模型在提升生成质量的同时显著降低使用成本,性价比优势显著 [1] - 在高品质模式(1080p)下,生成5秒视频仅需25灵感值,相比2.1模型同档位价格便宜近30% [1] 模型性能提升 - 新模型文本理解能力增强,能深入解读包含多步骤、有因果关系的复杂指令 [3] - 用户可通过提示词精准控制视频动态发展、角色互动和场景变化,使生成视频更遵循时序逻辑 [3] - 模型能生成更大幅度动作和运镜,对真实世界物理动态模拟能力提升,在打斗、镜头跟随跑步等大动态场景及花样滑冰、多人群舞等复杂动作场景中表现更出色 [4] - 新模型捕捉参考图片艺术风格精准度提高,能准确识别色彩影调、光影分布、笔触质感等元素,保障生成视频与参考图片视觉特征一致 [4] 专业评测表现 - 在文生视频方面,与Seedance 1.0 mini、Veo3-fast、Seedance 1.0对比的整体GSB得分分别为2.85、2.12、1.60 [5] - 在图生视频方面,与Seedance 1.0 mini、Veo3-fast、Seedance 1.0对比的整体GSB得分分别为2.89、2.08、1.64 [5] 行业应用与市场活动 - 模型升级提升了视频生成可控性、稳定性与一致性,为影视、短剧、游戏、动画、广告营销等专业创意场景的广泛应用奠定基础 [5] - 公司近期亮相第30届釜山国际电影节,参与2025年亚洲内容与电影市场大会(ACFM),与Google、Midjourney等全球科技企业探讨视频生成大模型应用前景 [5] - 公司启动"NEXTGEN全球新影像创作大赛",面向全球征集作品,获奖作品有机会在戛纳秋季电视节、东京国际电影节期间展映 [5] 未来发展方向 - 公司未来将持续提升模型基础质量,开发更多创新功能,打造一站式创意引擎,满足创作者多样化需求 [6]
可灵2.5 Turbo 模型上线 模型生成效果行业领先、性价比提升显著
智通财经网· 2025-09-24 15:46
模型性能升级 - 推出视频生成可灵2.5 Turbo模型,更新文生视频和图生视频两大功能 [1] - 在文生视频效果上,与Seedance 1.0 mini、Veo3-fast、Seedance 1.0对比的胜负比分别达到285%、212%、160% [1] - 在图生视频效果上,与Seedance 1.0 mini、Veo3-fast、Seedance 1.0对比的胜负比分别达到208%、289%、164% [1] 产品定价与成本 - 模型价格更低,高品质模式下生成5秒视频仅需25灵感值,相比2.1模型同档位价格低近30% [2] 技术能力提升 - 文本理解能力提升,能深入理解包含多个步骤和因果关系的复杂指令,更精准控制视频动态发展、角色互动和场景变化 [2] - 能够生成动态幅度更大的动作和运镜,更好地模拟真实世界物理动态,在打斗、跑步跟随、花样滑冰等复杂场景表现优秀 [3] - 能更精准捕捉参考图片的艺术风格,准确识别色彩影调、光影分布、笔触质感等元素,提升风格保持一致性 [6] - 在光影、构图等美学表现上更具美感 [6] 行业应用与市场活动 - 模型升级提升了视频生成的可控性、稳定性和一致性,为应用于影视、短剧、游戏、动画、广告营销等专业场景奠定基础 [7] - 公司亮相第30届釜山国际电影节,受邀参加亚洲内容与电影市场大会,与Google、Midjourney等企业探讨行业应用前景 [7] - 正式启动"NEXTGEN全球新影像创作大赛",面向全球征集作品,获奖作品有机会在戛纳秋季电视节、东京国际电影节展映 [7]
可灵AI计划进军游戏制作和专业影视制作
钛媒体APP· 2025-08-21 22:01
核心观点 - 可灵AI在游戏和影视工业级场景应用取得进展 与网易游戏《逆水寒》达成深度合作 全球首部AI单元故事集《新世界加载中》累计播放量近2亿 [2][3] - 可灵AI商业化加速 二季度营收超2.5亿元人民币 其中专业创作者付费订阅贡献近70%营业收入 [3] - 公司预计可灵AI全年收入较年初目标翻倍 追加推理算力投入使相关Capex实现翻倍增长 但AI投入对全年利润率影响控制在1-2% [5] 业务进展 - 可灵AI与网易游戏《逆水寒》合作 将AI视频生成能力内置游戏中丰富社交玩法 [2] - 推出全球首部AI单元故事集《新世界加载中》 全球累计播放量近2亿 [3] - 影视工作者利用可灵AI进行前期概念设计 特效镜头和空镜镜头制作 [3] - 发布可灵2.0视频生成模型和可图2.0图像生成模型 提升语义响应 动态质量和画面美学 [5] - 7月新增多图参考 灵动画布等功能 重点优化角色主体场景一致性 动态质量和画风保持 [5] - 累计生产超2亿个视频和4亿张图片 服务超2万家企业客户 [7] 财务表现 - 可灵AI二季度营收超2.5亿元人民币 [3] - 专业创作者付费订阅会员贡献近70%营业收入 [3] - 公司追加可灵AI推理算力投入 2025年相关Capex较年初预算翻倍 [5] - 可灵AI在推理算力层面实现毛利率打正且保持稳定 [5] - 集团AI投入对全年利润率影响预计1-2% [5] - 二季度快手营收同比增长13.1%至350亿元 经调整净利润同比增长20.1%至56亿元 [7] - 毛利率和经调整净利润率分别为55.7%和16.0% 突破历史峰值 [7] 技术发展与成本控制 - 视频生成大模型在硬件采购和运营成本上处于大模型领域第一梯队 [4] - 多模态生成任务token消耗远高于文本 高分辨率视频推理成本极高 [4] - 公司已在年初预算中充分考虑AI技术人才投入 费用开支预计变化不大 [4] - 可灵单位训练成本和推理成本曲线仍有进一步节降空间 [5] 未来规划 - 针对游戏制作和专业影视产业用户 通过行业解决方案牵引技术创新 [6] - 针对大众创作者 通过创意玩法提升产品易用性实现破圈增长 [6] - 计划拓展游戏开发概念设计 场景生成和角色设计等环节 [2]
快手高管解读Q2财报:对视频生成大模型场景和变现充满信心
新浪科技· 2025-08-21 21:29
核心财务表现 - 第二季度营收350亿元人民币 同比增长13.1% [1] - 净利润49亿元人民币 较2024年同期40亿元增长22.5% [1] - 非国际财务报告准则调整后净利润56亿元人民币 较2024年同期47亿元增长19.1% [1] 可灵AI业务发展 - 专业创作者构成主要付费群体 包括泛自媒体用户、设计师、电商广告从业者及影视工作室 [1] - 大众创作者通过AI生成创意图片/视频进行社交分享 专业创作者用于流量获取与内容变现 [2] - 电商广告行业借助AI降低素材成本超50% 影视制作突破现实场景限制提升视觉表现力 [2][3] - 游戏行业与《逆水寒》合作涉及人物生成/图生视频/互动特效 未来将拓展至概念设计与场景生成 [2] - 推出"灵动画布"集成文生图/文生视频功能 实现流程化操作与实时协同创作 [3] AI技术全域赋能 - OneRec生成式推荐大模型提升用户时长与留存 全面推动本地生活GMV显著增长 [5] - AIGC营销素材生成实现数字人直播间功能 某男装客户营销消耗增长近200% [6] - 生成式出价模型通过强化学习提升营销转化率 生成式召回提高广告点击率 [6] - 电商AI多模态模型优化商品图像 商品卡转化效率提升超10% [7] - AI技术赋能线上营销服务收入实现低单位数增长 [6]
视频生成大模型群雄逐鹿 却不温不火
中国经营报· 2025-06-27 16:17
国内视频大模型发展现状 - 国内视频生成大模型行业高开低走,目前处于不温不火状态,主要原因是用户更偏好真人博主出演的短视频而非AI生成内容 [2] - 腾讯混元、快手可灵、字节跳动即梦等国内视频大模型各自拥有独特技术优势:可灵擅长图像识别转换、即梦强于自然语言处理、混元结合两者优点并增加自定义选项 [2] - 可灵AI经过一年发展,在影视、短剧、广告、游戏、高校教育等行业实现深度实践探索 [2] 可灵AI商业化进展 - 截至2025年4月,可灵AI全球用户突破2200万,月活增长25倍,累计生成1.68亿个视频及3.44亿张图片 [3] - 可灵系列模型占据全球AI视频工具市场30.7%访问量份额,在文生视频、图生视频赛道稳居全球前二 [3] - 可灵2.0大师版显著提升语义响应、动态质量和画面美学,新增多模态视频编辑功能 [3] - 商业化变现至2025年2月累计营收超1亿元,2025年3月年化收入运行率突破1亿美元,4-5月单月付费均超1亿元 [4] - 专业用户(P端)付费订阅贡献70%营收,这类用户兼具传播属性和付费能力 [4] 国际竞争格局 - OpenAI Sora支持60秒高质量视频生成,采用创新"视频作为图像补码"方法,但对GPU算力要求高导致延迟较长 [5] - Meta Movie Gen擅长社交媒体视频样式,优化移动端性能并具有电影级审美,但动作连贯性有待提升 [5] - RunwayML Gen-4 Alpha专注10-20秒短视频高保真合成,提供丰富编辑功能,更受创意行业青睐 [6] 其他国内厂商技术特点 - 阿里通义万相2.1增强时空上下文建模,支持无限长1080P视频,首创中文文字视频生成功能 [6] - 腾讯混元可生成5秒内2K短视频,在文本一致性、运动质量和画面质量维度领先 [6] - 百度"文心一言"4.0的"一镜流影"插件主打批量化720p短视频生产,整合进大模型生态提高用户可及性 [7] - 字节跳动即梦AI可生成2分钟1080p视频,擅长复杂运动描绘,但内容互动量呈现高开低走趋势 [7] 行业未来发展趋势 - 视频大模型将向智能化、个性化方向发展,提升复杂内容生成能力和定制化服务水平 [8] - 5G等高速网络技术普及将改善视频传输体验,进一步推动行业应用 [8]
加大投放?字节即梦AI两天内迅速登顶苹果中国区免费榜
观察者网· 2025-05-14 18:30
公司动态 - 抖音旗下AI生成工具即梦AI于5月13日登顶中国区免费App榜第一名 超过豆包和红果短剧 [1] - 即梦AI排名自5月12日起上升17名至总榜第7 次日再上升6名实现登顶 [5] - 即梦AI项目由剪映团队孵化 原抖音集团CEO张楠亲自带领团队打造 [5] - 字节跳动2023年筹建Flow和Seed团队 Flow专注AI应用开发 Seed专注大模型研发 [7] - 字节跳动整合AI研发团队 AI Lab全部收归Seed团队 Flow团队核心产品为豆包 [7] - 即梦AI于今年3月5日上线"动作模仿"功能 4月2日即梦3.0开启灰度测试 在影视质感等方面全面升级 [10] 市场竞争 - 豆包主打AI对话功能 在视频生成方面探索有限 [7] - 腾讯元宝接入DeepSeek满血版 借助微信平台形成用户规模 对豆包造成挤压 [7] - 快手AI团队去年6月发布可灵系列大模型 迭代20多次 多次登顶视频生成模型榜单 [8] - 可灵2.0大师版受海内外用户追捧 全球用户达2200万 [8] - 即梦比快手可灵更早一个月推出视频生成业务 但因生成水平不佳未受重视 [10] - 字节跳动于去年12月提高即梦产品优先级 尝试打造"AI时代的抖音" [10] 行业趋势 - 视频生成大模型赛道竞争加剧 字节跳动资源倾斜将推动行业竞争更加激烈 [10]