Workflow
AI视频生成
icon
搜索文档
AI视频生成的Vidu样本:攻坚视频生成核心难题,引领内容生产力变革
锦秋集· 2025-05-06 22:36
多模态AI技术重塑内容创作 - 多模态AI技术正以前所未有的速度重塑内容创作领域,从OpenAI Sora到吉卜力风图片,技术壁垒不断被突破 [1] - 视频生成作为技术难度与应用潜力并存的关键环节,吸引了全球广泛关注,但仍面临一致性、可控性和计算成本等核心挑战 [1] - 生数科技Vidu通过集中资源解决专业用户痛点(一致性、可控性、效率),在动画等领域建立差异化优势 [1] Vidu的核心定位与技术突破 - Vidu定位为"全球领先的AI内容生产平台",优先解决实际工作流中的关键痛点 [1] - 推出"参考生"(Reference to Video)范式,通过给定参考主体+文字驱动演绎,在可控与创意自由间寻求平衡,可能颠覆传统动画制作流程 [2] - 全球首创多主体参考技术及"主体库"功能,解决内容创作的"一致性"问题,确保角色、物体等在连续画面中保持稳定 [3] - Q1版本模型在语义理解、物理规律模拟和清晰度上改进,提升生成过程的"可控性"与结果的"可靠性" [3] 未来AI视频生成的发展趋势 - 行业在成本和速度方面有望实现10到100倍的优化空间 [4] - 未来将催生"实时可交互、高一致性的新内容平台",用户可主动介入、影响内容进程,甚至与其他用户协作共享 [7] - "生成即消费"模式可能改变当前内容平台生态,降低对特定创作者的依赖性,模糊生产与消费的界限 [5] - 2025年多模态内容领域两大趋势:AI视频内容爆发、涌现大量可消费商业化成片内容 [13] Vidu的技术创新与市场策略 - 主体库功能解决内容创作中的"一致性"难题,未来推出共享主体库支持创作者协作甚至共创IP [18] - 与动画协会、北影等机构及全球高校和专业动画工作室深入合作,探索AI剧集等内容形态 [19] - 市场策略是"把长板做到足够长",优先在动画领域做到最好,不追求大而全 [24] - 在广告营销、动画制作等领域,多模态生成技术已能带来3-5倍的效率提升 [23] 多模态技术的未来挑战与突破点 - 核心挑战在于一致性、实时性和可交互性的完美结合,并且需要在一个可负担的成本下实现 [9] - 未来技术突破点包括:持续的成本与速度优化、对物理世界规律更深层次的理解与模拟、真正的多模态融合与完整内容生成 [16] - 纯粹的文生视频应用者不多,"参考生"范式更具潜力 [10] - 多模态生成技术未来可能会把独立的数字人技术"吃掉" [12] 多模态技术的产业机会 - 通过API等方式将技术能力赋能给现有应用和服务,驱动增长和提升用户体验 [26] - 将多模态技术深度融入现有工作流,提升内部的内容生产效率和创意水平 [27] - "内容即服务"市场需求日益增长,技术提供方可扮演连接者和赋能者角色 [27] - AI普及会改变创作模式,"一人即团队"成为可能,深刻影响产业结构 [28]
生数科技按下B端商业化快进键:30天签约智谱/飞书等8家行业龙头
AI视频生成行业的商业化落地正在加速。 在多模态生成领域,短短不到一周的时间,明星AI公司生数科技密集官宣与多家行业头部企业达成合 作。 2025年4月27日,智谱宣布融合生数科技旗下旗舰产品Vidu在多模态生成等方面的先进能力,其MaaS平 台将全面接入Vidu视频模型 API接口;而就在两天前的4月25日,飞书宣布与生数科技Vidu达成合作, 飞书用户可通过多维表格的AI字段捷径,直接调用Vidu一键实现从创意到成片的智能化视频生成。同期 4月25日,百度搜索在百度Create大会宣布Vidu已加入百度搜索开放平台。 能够如此密集快速在B端官宣落地,在多模态赛道很难不引人注意。这似乎也意味着,伴随生数科技 Vidu的基座模型能力在文生、图生动漫及写实登榜全球第一,这家聚焦AI视频生成行业的中国AI领军 公司已甩开大厂,率先进入到商业化成规模落地阶段。 B端商业化增速行业第一,不同领域多面开花 实际上,仔细查看生数科技B端动向,可以发现其生猛的商业化落地合作并不是单点单领域爆发,而是 早已在多领域生根,正迅猛进入爆发期。业内对B端合作大多缄默,但根据公开数据,我们还是列数了 生数科技在不到一年内,已部分对外 ...
字节快手迎来关键对决
华尔街见闻· 2025-04-22 20:39
AI视频生成竞争格局 - AI竞赛焦点转向多模态 字节和快手在AI视频赛道竞争激烈[1] - 根据Gartner 2024年新兴技术成熟度曲线 AI视频生成技术仍处于创新触发期[2] - 行业尚未出现类似DeepSeek在LLM领域的标杆性产品[2] 快手技术进展 - 正式发布可灵2.0视频生成模型及可图2.0图像生成模型[1][3] - 提出Multi-modal Visual Language(MVL)交互理念 由TXT和MMW组成[3] - 可图2.0拥有强大复杂语义理解能力和电影级画面质感 图生视频占可灵AI视频创作量85%[3] - 可灵AI全球用户规模突破2200万[1] - 截至2025年2月底 可灵AI累计营业收入超1亿元人民币[9] - 与小米、亚马逊云科技等企业合作 超1.5万开发者接入可灵AI API[9] 字节跳动技术进展 - 发布Seedream 3.0技术报告 综合性能追平文生图SOTA模型GPT-4o[1][4] - Seedream 3.0支持原生2K直出 生成时间仅需3秒[4] - 2024年9月发布豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型[5] - 即梦AI月活增速达173.57% 位居全球AI产品增速榜第5 月活规模约2037万[1] 公司战略布局 - 快手将AI作为破解增长曲线难题的最大抓手 同时面向C端和B端提供服务[9] - 字节将即梦AI视为AI战略核心版图 试图打造AI时代的"抖音"[6][8] - 字节内部组建AGI长期研究团队"Seed Edge" 探索跨模态合作[9] - 两家公司都希望在AI时代复制新的"抖音"和"快手" 成功跨越新技术周期[8] 行业发展现状 - AI视频生成领域处于早期发展阶段 技术迭代速度快[2][7] - 产业界对AI视频生成价值存在分歧:可能是AIGC视频生产工具 也可能是通用视频武器[11] - 多模态技术未来可能应用于社交、游戏、VR、AR等多个领域[11] - 相较于大语言模型 AI视频生成在Scaling law、算力需求和商业模式方面挑战更大[11]
清华特奖得主团队视频生成AI一夜刷屏!100%开源+61页技术报告,还能无限扩展生成,网友:游戏规则改变者
量子位· 2025-04-22 13:06
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI 新国产AI视频生成模型横空出世,一夜间全网刷屏。 Magi-1 ,首个实现顶级画质输出的 自回归视频生成模型 , 模型权重、代码100%开源 。 整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。 Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球。 其主打能力,一是 无限长度 扩展 ,实现跨时间的无缝连贯叙事: 二是能将 生成时长控制精确到每一"秒 " : 另外,Magi-1对物理规律也有更深度的理解, Physics-IQ基准测试56.02% ,大幅领先一众顶流。 现在看这张图,Sora的时代是真的过去了。 此 次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。 这匹"黑马"来自中国团队 S and.ai ,中文名听着有点萌叫 三呆科技 ,实力却不容小觑。 创始人 曹 越 ,清华特奖得主、光年之外联合创始人。 目前大伙儿可在官网免费试玩Magi-1。GitHub更是一晚过后狂揽500+Star。 | Model | Link | Recommend Ma ...
ZPedia丨诺兰看了沉默,王家卫看了流泪:全球首款无限时长AI视频模型横空出世
Z Finance· 2025-04-21 09:56
AI视频生成行业现状 - 当前AI视频生成工具普遍存在单视频时长限制在10秒左右、运镜效果差、角色情绪表达缺失等技术瓶颈,难以实现连贯叙事[1] - 行业陷入闭源垄断与技术停滞困境,多数产品停留在机械执行指令阶段,无法理解影视导演语言[3] - 主流模型在视觉质量、运动动态效果和高分辨率之间难以平衡,导致专业级长视频生成受阻[10] 昆仑万维Skyreels技术突破 - 推出全球首个支持无限时长的开源电影级生成模型Skyreels-V2,突破传统10秒时长限制,实现好莱坞级别"一镜到底"[6][10] - 采用扩散强迫框架将搜索空间从O(1e48)降至O(1e32),配合强化学习解决动态扭曲问题,实现物理规律级运动流畅性[12] - 构建亿级影视专业数据集,通过四阶段渐进式训练策略(概念平衡微调→运动强化学习→扩散强迫训练→高质量微调)提升性能[14] - 内置视频理解引擎SkyCaptioner-V1,能解析"王家卫风格逆光长镜头"等专业导演指令,实现情绪层次化表达[7][9] 核心技术指标表现 - 在人类评估中综合得分3.14分,指令遵循(3.15分)和一致性(3.35分)显著领先Runway-Gen3 Alpha(2.53分)等竞品[18] - 自动化测试总分83.9%,质量分84.7%,超越Hunyuan Video-13B(82.7%)和Wan2.1-14B(83.7%)[19] - 支持720p以上电影级画质输出,解决传统AI视频"塑料感"问题,实现发丝飘动、动态模糊等细节呈现[8] 商业化应用场景 - 小说创作者可将文本直接转化为分镜短剧,无需专业影视制作团队[20] - 品牌方可快速生成"赛博朋克汽车奔跑特写"等广告素材,缩短传统2-3周制作周期至即时输出[22] - 自媒体博主实现"AI日更",单人单日完成原需5人团队的工作量,自动生成字幕/封面等配套内容[23] - 提供"剧情实验室"功能,通过多版本镜头语言测试优化影视表达效果[24] 行业影响与定位 - 首次将影视工业化体系封装为可调用的模型接口,使电影制作门槛从专业团队降至个人创作者[25] - 开创AI视频生成从"工具时代"到"创作时代"的转折,推动行业竞争焦点从技术参数转向艺术表达[3] - 作为全球首个开源电影级解决方案,打破闭源垄断格局,重新定义视频生成技术标准[3][25]
快手-W(01024):可灵2.0模型全新发布,看好广告营销、UGC、影视创意等多行业赋能
东方证券· 2025-04-18 21:54
报告公司投资评级 - 维持“买入”评级 [2][6] 报告的核心观点 - 4月15日快手可灵AI发布可灵2.0视频生成模型及可图2.0图像生成模型,可灵AI迭代快、用户量增长迅速,综合实力居全球图生视频赛道榜首 [4] - 可灵2.0和可图2.0基模质量明显提升,底层技术有创新点,内部测评表现领先 [4] - 提出AI视频生成全新交互理念MVL,上线多模态编辑产品,能辅助AI内容创作降本提效 [4] - 25年可灵商业化情况值得期待,能重构多行业,已与多家企业合作,有超1.5万名开发者应用其API [4] 根据相关目录分别进行总结 盈利预测与投资建议 - 预计24 - 26年公司经调整归母净利润为177/194/229亿元,维持25年16xPE估值,对应合理价值为3107亿CNY/3345亿HKD,目标价77.61港元/股 [2] 公司主要财务信息 |项目|2022A|2023A|2024A|2025E|2026E| | ---- | ---- | ---- | ---- | ---- | ---- | |营业收入(百万元)|94183|113470|126898|140988|153301| |同比增长(%)|16.2%|20.5%|11.8%|11.1%|8.7%| |营业利润(百万元)| - 12558|6431|15287|20009|25024| |同比增长(%)| - 54.7%| - 151.2%|137.7%|30.9%|25.1%| |归属母公司净利润(百万元)| - 13691|6396|15335|18062|21360| |同比增长(%)| - 82.5%| - 146.7%|139.8%|17.8%|18.3%| |每股收益(元)| - 3.22|1.48|3.56|4.20|4.96| |毛利率(%)|44.7%|50.6%|54.6%|55.5%|56.2%| |净利率(%)| - 14.5%|5.6%|12.1%|12.8%|13.9%| |净资产收益率(%)| - 32.2%|14.4%|27.6%|25.0%|22.6%| |市盈率(倍)| - |31.3|13.0|11.1|9.4| |市净率(倍)|2.1|1.8|1.6|1.4|1.3|[5] 财务报表预测与比率分析 - 资产负债表、利润表、现金流量表展示了2022A - 2026E的各项财务数据,如现金及等价物、营业收入、营业成本等 [8] - 主要财务比率涵盖成长能力、获利能力、偿债能力、营运能力、每股指标、估值比率等方面的数据及变化情况 [8]
速递|AI视频Runway发布Gen-4,低成本生成720p微电影,影视业是否会买账?
Z Potentials· 2025-04-01 11:49
产品发布与功能 - 公司计划向付费用户发布Gen-4 AI模型 支持生成720p分辨率的五秒和十秒视频剪辑 [1] - 新模型专注于提升视频场景的一致性 通过保留位置、角色及视觉风格等细节改善输出质量 [5] - 新增功能旨在使软件生成视频时更连贯 预计于本周晚些时候上线 [1] 技术进展与行业竞争 - 新AI模型直接挑战OpenAI的Sora 标志着AI视频生成领域竞争显著加剧 [2] - 公司2023年初推出三秒视频生成模型 引发行业热潮 当前版本已跨越好莱坞专业标准门槛 [2][3] - 模型训练采用电影行业专业术语 使电影制作人编写提示更自然 [7] 应用案例与商业合作 - 软件已用于亚马逊《大卫之家》场景生成、麦当娜巡演视觉效果及Puma广告制作 [6] - 与Lionsgate签署协议 基于该工作室内容训练AI模型用于电影项目 [6] - 纽约大学、罗德岛设计学院等教育机构已采用该技术 [6] 内容生成能力展示 - 演示案例包括奇幻粘土动画森林场景 包含角色互动与连贯叙事 生成过程需数百个独立视频编辑整合 [3] - 当前AI视频仍存在幻影肢体、物理规律违反等问题 但新模型输出明显更一致 [4] - 完整视频制作流程包含单独添加声音 总耗时数天 [3]
AI视频鹿影科技将被MiniMax收购,AI创业进入“淘汰赛”
创业邦· 2025-03-15 08:51
详情请戳视频 以上就是本期全部内容,如果您想了解更多 最新 企业 动态, 欢迎登录 睿兽分析 查看,解锁 赛道图 谱 以及 行业报告 。 据报道,上海大模型独角兽MiniMax将收购深圳AI视频生成创企鹿影科技(Avolution.ai),双方目 前已经敲定收购意向,相关流程还在持续进行。 2024年,鹿影科技在天使轮融资时估值水平没有超过2000万美金,约在1亿人民币左右。知情人士 称,去年以来,鹿影科技一直在持续寻求第二轮融资,但过程中并没有很顺利,团队本身在Ai视频领 域方面有一定的经验,最终选择和MiniMax合作。 首家卖身的AI视频创企出现!融资碰壁,CTO出走。 ...
生数科技加速商业化:原字节跳动AI大将、火山引擎高管骆怡航加盟出任CEO
IPO早知道· 2025-03-13 13:06
公司核心动态 - 原字节跳动火山引擎AI应用产品线一号位骆怡航加入生数科技担任CEO,全面负责研发、产品、商业化及团队管理[3][5] - 骆怡航在字节跳动期间从0组建AI应用产品线,管理规模数百人,服务全球近万家客户[5] - 生数科技此前已引入商业化副总裁王川、品牌市场负责人刘婷婷等高管[5] 公司技术进展 - 生数科技于2024年4月首发全国产自研的中国首个长时长、高一致性、高动态性视频大模型Vidu,是全球首个对标Sora的视频大模型[5] - 2024年7月Vidu全球首发参考生视频功能,11月突破多主体一致性功能,开启视频模型上下文时代[5] - 2025年1月发布的Vidu 2.0视频生成速度突破10秒以内,成本降至不到行业平均水平的一半,用户已覆盖200多个国家和地区[5] 高管背景与影响 - 骆怡航博士毕业于清华大学自动化系,深耕云计算及AI领域十余年,拥有深厚技术背景和成熟商业化经验[5] - 骆怡航的加入将有助于生数科技加快技术转化和商业化进程,拓展影视、动漫、广告、教育、游戏、文旅等垂直行业应用场景[5] - 其丰富的大厂管理经验将帮助公司完善组织架构,提升团队战斗力,制定更具前瞻性的战略规划,推动公司进入规模化和全球化发展阶段[5] 行业意义 - 行业顶尖人才选择加入生数科技,意味着AI视频生成赛道已到了技术成熟和商业化落地的关键时刻[2][5]
AI产品深度拆解(系列1):可灵:头部AI视频产品
中信建投· 2025-03-13 09:23
报告行业投资评级 - 报告未明确提及行业投资评级 [1] 报告核心观点 - 可灵AI视频综合能力处于全球第一梯队 技术指标领先且性价比高 生成5秒标准视频单价仅需1元 而Runway和Sora等约为3元 [15] - 用户规模显著 2025年2月网页端访问量达1882万 位列全球AI视频产品第2 其中海外访问量占比超80% [15][6][9] - 商业化进展迅速 2024年底月流水已超千万人民币 预计短期年化收入达6-10.8亿元 中长期国内年收入空间68-92亿元 海外57-97亿元 [15][127][129][133] - 产品形态丰富 涵盖网页版、独立APP、小程序和快影APP 面向创作者、电商卖家及普通用户 兼具工具与社区属性 [6][71] - 技术迭代频繁 采用DiT架构 自2024年6月上线后已完成超10次迭代 模型性能在第三方评测中仅次于Google Veo2 [19][22][34] 产品与技术分析 - 可灵支持文生视频、图生视频、视频续写、AI试衣、对口型等特色功能 其中AI试衣和对口型功能分别服务于电商和娱乐场景 [53][66] - 模型支持最长2分钟1080p视频生成 在Meta Movie Gen和谷歌Veo2技术报告中净胜率低至3.87% 性能优于Sora和Runway [34][37] - 研发团队约20人 由快手高级副总裁盖坤和技术副总裁张迪领导 背靠快手海量视频数据加速模型训练 [26][39] - 2024年9月发布可灵1.5模型 视频清晰度升级至1080p 新增运动笔刷功能 语义理解能力提升 [41][43] 用户与流量表现 - 测试阶段关注度高 2024年7月未开放内测时申请人数超50万 11月累计用户超500万 生成视频5100万条 [88][90] - 独立APP增长迅猛 2025年2月月活达151万人 环比增速113% [8][94] - 海外口碑显著 获马斯克、Stability AI前CEO、Y Combinator CEO公开认可 相关视频在X平台阅读量达56-61万次 [15][100][104] 商业化与生态建设 - 收费模式灵活 C端采用积分制(1元=10灵感值) API调用生成5秒视频最低1元/条 [119][121] - 与影视创作者深度合作 联合李少红等导演推出AI短剧 单部成本0.21-1.4万元 较真人制作降本最高94% [106][112][113] - 社区生态初具规模 快手平台为可灵导流 AI毛绒特效相关视频播放量超5.5亿次 [75][79][82] 竞争格局与行业地位 - 在全球视频模型中性价比突出 生成5秒视频价格低于Pika(3.6元)、Runway(3.5元)等竞品 [20][123] - 网页版访问量仅次于Minimax海螺AI(2943万) 高于PixVerse(1157万)和Runway(765万) [93] - 功能丰富度领先 支持多图参考、创意特效等 而Sora仅支持元素修改、视频合并等基础功能 [66][67]