Workflow
视频生成技术
icon
搜索文档
AI漫剧产业前瞻:多模态技术突破与内容生产新范式
2025-12-11 10:16
行业与公司 * **行业**:AI漫剧(AI动画/短剧)内容生产与分发行业[2][15] * **公司**:巨量平台(一家提供AI视频生成技术、工具和服务的平台公司,服务于AI漫剧内容生产)[1][2][4][5][6] 核心观点与论据 技术能力与解决方案 * **技术基础**:平台早期基于Stable Diffusion开发,但已过时不再使用[2] 平台拥有自研的图像处理核心技术能力,包括使用CUDA、对开源模型进行微调,并借鉴国外先进模型(如nano banana 1/2、GPT)设计图片处理流程[2] * **一致性保障**:通过训练专属模型和要求用户提供多视图人物资产(如三视图、五视图、九视图),结合自身技术处理,以实现高质量的人物和场景一致性[1][4] 通过审核客户提供的人物资产(如要求包含面部特写及三视图)确保符合标准[5] * **问题解决**:通过精准服务每个客户案例,实时互动解决具体问题(如人物风格偏向写实的问题)[5] 通过培训和指导客户正确使用工具,使其能独立解决问题[5] * **数据资产优化**:对数据资产有明确标准(如要求大头照及三视图组合的人物特写),并提供详细指导(如利用PS、截图精修或图生图方式制作)[6] 通过深度交流和共创,与国内一线模型厂商合作,推动行业标准化[6] * **技术瓶颈**:目前视频生成中,人物、场景和物品的一致性对于画面还原最为重要,高精度还原要求物体位置正确且特性不变[6] 动作和运镜并非硬瓶颈,可通过结合模型能力与工程化工具很好实现[6] 真正难以突破的是写实短剧中的人物面部微表情及细微变化[7] * **工程化应用**:通过密集探讨和反馈,不断优化模型各维度性能[2] 评估模型优劣势,告知用户避免使用劣势功能,或尝试弥补短板,否则舍弃并寻求同类版本[2][10] 应用层面的核心能力在于知道如何更好地利用模型,包括资产管理、提示优化以及镜头使用等经验[11][12] 市场、模型与竞品 * **模型生态**:客户对模型具体来源无感,只根据平台指导操作[2] 各模型厂商各有优势,但没有一家能全面领先,各厂商在某一阶段某项功能上突出[2][8] * **模型评价**: * 微度的多参引领行业[2][8] * 海螺的大打斗场景有优势[2][8] * 火山C4GM 1.0 Pro曾经综合能力强,但很快被超越[8] * 快手推出多模态音画同步功能,阿里万象即将发布2.6版本加强音画同步[8] * 可灵O1的视频编辑功能(如替换人物)表现不错,但多帧生视频、图生视频等技术尚未达到上架标准[9] * Vidu Q1清晰度提升,但运动性能不如前代,市场反应不佳[10] * **版权来源**:剧本版权主要来源于三类:原创文学平台(如七猫、阅文、起点)、以前拍摄影视剧的公司、专门为大公司提供网文的写手公司[13] 当前阶段,大多数版权方倾向于自己商业化现有版权,而非进行版权交易[13][14] * **爆款率**:短剧爆款率约为5%(10部中1部成功),而漫剧爆款率可达60%以上(5部中有3部成功)[17] 爆款需具备优质剧本、精良制作和强大发行能力三要素[17] 商业模式与变现 * **主要分发渠道**:AI漫剧主要分发渠道是抖音,其次是快手、拼多多、支付宝、B站等平台,最后在海外平台(如TikTok、YouTube)分发[2][15] * **变现路径**: * **抖音**:首先进行限时发行,定价9.9元,持续1至2周,通过用户充值解锁观看[15] 第一轮结束后加大投放[15] 随后通过贴片广告变现(每集插入30秒广告)[15] * **其他平台**:在快手、拼多多、支付宝、B站等平台通过分成方式变现[15] * **成本与利益分配**: * **传统 vs AI成本**:传统方法制作一分钟漫剧情节成本从几万到几十万不等,使用巨量平台后可降至每分钟几百元[18] * **生产效率**:使用AI技术后,一个四人团队以前需要一个月完成80分钟作品,现在五人团队五天即可完成80到100分钟作品[18] 一个成熟动画师日产出从1-2分钟素材提升到8-10分钟,效率提高8-10倍[20] * **制作成本结构**:一部短剧制作成本约为7万元,其中巨量平台占2万元,配音费用约1万元,其余3至4万为人力成本[16] * **利润空间**:制作方将作品以10万至15万不等价格交给甲方,赚取差价[16] 目前一些客户通过制作一部短剧能赚取40%到80%的利润,有时甚至翻倍[16] 甲方可能还会提供收入分成[16] 其他重要内容 * **语音合成(TTS)**:用于漫画/动漫解说时效果可接受,但用于AI影视剧,目前全球最强的TTS技术仍无法达到要求,建议客户寻找第三方配音服务[13] * **动作控制重要性**:对于行业而言,动作控制的精细苛求(如为单个镜头拍摄500次)重要性有限,更多是满足导演个人需求,未来可以很好解决[7] * **行业阶段与竞争**:市场仍处于大量投入阶段,参与者不足,尚未对作品质量提出更高要求,但未来随着竞争加大,对精度和细节要求将逐步提高[19] 最成功的公司通过工具结合自身优势走在前列,新加入者模仿并扩产[19] * **发行周期**:漫剧具有卡通特性,其发行周期较长且渠道多元[2][15]
快手可灵AI全年预计收入1.4亿美元 创始人称视频生成技术远未成熟
中国经营报· 2025-11-20 21:46
公司财务业绩 - 第三季度总收入达356亿元,同比增长14.2%,经调整净利润50亿元,同比增长26.3% [2] - 线上营销服务收入201亿元,同比增长14%,直播业务收入96亿元,同比增长2.5%,其他服务收入59亿元,同比增幅达41.3% [2] - 可灵AI在第三季度收入超过3亿元,预计2025年全年收入将达到1.4亿美元(约10亿元人民币),较年初目标提升超100% [2] 可灵AI业务表现 - 可灵AI第一季度收入超过1.5亿元,第二季度收入超过2.5亿元,前三季度累计营收超过7亿元 [2] - 根据全年目标测算,第四季度仅需完成约3亿元收入,收入增速从前期较快增长转为相对放缓,预计第四季度增速将进一步放缓 [2][3] 行业竞争格局 - 视频生成赛道竞争加剧,下半年百度推出限时免费版蒸汽机大模型,OpenAI发布Sora 2,多家企业进入高强度研发与运营状态 [3][6] - 行业参与者持续扩容,涵盖互联网头部企业和初创公司,技术层面竞争焦灼,难以形成长期绝对优势 [4][5] - 多方入局加速行业技术革新与产品升级,推动适配用户需求和拓展应用场景,助力行业整体规模扩大 [5] 公司战略与投入 - 可灵AI现阶段阶段性聚焦“AI影视创作场景”核心目标,主要精力集中于服务专业创作者,提升其使用体验与付费意愿 [6] - 公司持续探索C端应用场景,计划在时机成熟时结合社交互动功能加速C端应用商业化进程 [6] - 鉴于用户对视频生成模型需求攀升,公司已多次追加算力投入,包括扩充推理算力和加码训练算力布局 [6]
博纳影业:公司积极关注国内外视频生成产品和相关技术发展
证券日报网· 2025-10-16 17:45
公司战略与业务布局 - 公司积极关注国内外视频生成产品和相关技术发展 [1] - 公司根据自身业务布局持续探索相关领域应用 [1] 信息披露与投资者关系 - 相关进展将按照规定在深交所指定披露媒体上进行披露 [1] - 建议关注公司后续公告和定期报告以获取信息 [1]
赛力斯取得一种视频生成相关专利
金融界· 2025-08-01 13:38
公司专利动态 - 成都赛力斯科技有限公司于2025年3月申请视频生成技术专利 授权公告号CN119743660B 涉及视频生成方法 装置 电子设备及存储介质 [1] - 公司专利储备总量达324条 同时拥有1项行政许可 [1] 公司基本信息 - 成都赛力斯科技有限公司成立于2021年 注册资本500万人民币 位于成都市 [1] - 公司主营业务为软件和信息技术服务业 对外投资1家企业 [1]
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:17
视频生成技术评估框架 - 视频生成技术正在快速革新视觉内容创作方式,高质量视频生成模型的重要性日益凸显[1] - Video-Bench框架通过模拟人类认知过程,建立文本指令与视觉内容的智能评估体系[2] - 该框架能精准识别物体一致性(0.735相关性)、动作合理性等维度缺陷,显著优于现有评估方法[3] 技术架构创新 - 构建视频-条件对齐和视频质量双维度评估框架,覆盖对象类别/动作/颜色/场景一致性等要素[7][10] - 引入链式查询技术:通过多轮"描述-提问-验证"流程解决跨模态对齐难题[8][13] - 采用少样本评分技术:通过多视频对比将主观美学评判转化为量化标准[8][15] 性能优势 - 视频-条件对齐维度Spearman相关系数达0.733,较CompBench提升56.3%[18][19] - 视频质量维度平均相关性0.620,领先EvalCrafter[18] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] 技术组件效果 - 链式查询使视频-条件对齐评估提升9.3%[22] - 少样本评分将成像质量评估相关性从46.1%提升至62.4%[22] - 组合使用时评估稳定性(TARA@3)达67%,Krippendorff's α达0.867[23] 模型测评结果 - 商业模型Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - 当前模型在动作合理性(平均2.53/3)和动态模糊(3.11/5)等动态维度表现较弱[26] - GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)方面表现突出[27] 研究团队 - 团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等顶尖机构[4] - 核心成员包括多模态语言模型专家和LLM agent研究者[28] - 项目代码和论文已开源[29]
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:16
视频生成技术评估框架Video-Bench 核心观点 - 视频生成技术革新视觉内容创作方式,高质量视频生成模型重要性凸显[1] - Video-Bench通过模拟人类认知过程建立文本指令与视觉内容的智能评估体系,显著优于现有方法[2][3] - 框架由上海交通大学、斯坦福大学等机构联合开发,采用双维度评估和两项核心技术实现突破[4][7][8] 技术架构创新 - **双维度评估框架**:覆盖视频-条件对齐(对象/动作/颜色/场景一致性)和视频质量(成像/美学/时间/运动质量)[7][10] - **链式查询技术**:通过多轮"描述-提问-验证"流程解决跨模态对齐难题,提升评估相关性9.3%[8][13][22] - **少样本评分技术**:通过多视频对比量化美学评价,成像质量评估相关性从46.1%提升至62.4%[8][15][22] 性能优势 - 视频-条件对齐维度Spearman相关系数0.733,较CompBench显著领先[18] - 对象类别一致性达0.735相关性,较GRiT方法提升56.3%[19] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] - 抗干扰能力强:添加高斯噪声后评估误差<5%,评分一致性达87%[24] 主流模型测评结果 - **商业模型优势**:Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - **专项能力差异**:CogVideoX视频-文本一致性领先,Gen3成像质量最优[25] - **共性短板**:动作合理性平均仅2.53/3,动态模糊评分3.11/5[26] - **基础模型对比**:GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)表现突出,但版本更新可能引发性能波动[27] 技术实现细节 - 实验验证35,196个视频样本,组合技术使评估稳定性达67%(TARA@3)[22][23] - 框架对不同复杂度提示的评估稳定性优于基线方法32%[24] - 代码与论文已开源,便于行业应用验证[29]
豆包发布视频生成模型Seedance1.0 pro
快讯· 2025-06-11 11:38
产品发布 - 公司发布视频生成模型Seedance1.0pro [1] - 视频生成模型定价为0.015元/千tokens [1] - 制作5秒1080p视频成本约3.67元/个 [1] 技术进展 - 公司实时语音模型实现全量上线 [1] 行业动态 - 视频生成模型定价显著低于行业平均水平(需结合行业背景补充具体对比数据)[1]