视频生成技术

搜索文档
AI穿越直播视频为啥这么火(有事说事)
人民日报海外版· 2025-06-30 10:06
现在是公元208年。这里最长的成之战 this is 208 adjthe battle of Chengban Slope AI视频生成技术正成为连接古今、沟通中外的崭新纽带,让尘封的历史记忆焕发出新的活力,也让文 化的交流更加生动可及。 如果陈子昂活在今天,或许不需要怆然涕下了——近日,"AI穿越直播"火了。 视频中,AI记者"穿越"至古代场景:或在烽火连天的赤壁战场奔走解说,或"现身"唐朝玄武门之变现 场,或"参与"秦朝长城修筑……这样的作品如雨后春笋般涌现,凭借"第一人称Vlog视角+历史名场 面"的独特叙事,营造出强烈的"在场感",让观众在虚实交融中沉浸式感受历史的鲜活脉搏。 A n xx _ 我现在就在泰国会战的核心现场! I'm right in the heart of the battle of Red Cliffs 技术是把双刃剑,热闹之下也有隐忧。如果说,网上冒出一些让人哭笑不得的内容,比如"秦始皇直播 卖瓷砖""屈原代言粽子",将历史娱乐化,还能让人一眼看破、一笑置之的话,有些AI作品把不同历史 时期的东西凑在一起,却又"一本正经"地讲述,则有可能误导儿童青少年,容易将AI生成的"历史 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:17
Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:16
Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
豆包发布视频生成模型Seedance1.0 pro
快讯· 2025-06-11 11:38
豆包发布视频生成模型Seedance1.0pro,价格0.015元/千tokens,制作5秒的1080p视频约3.67元/个。同 时,豆包的实时语音模型全量上线。(科创板日报) ...
腾讯混元推出AI数字人技术:一张照片配音频即可生成唱歌视频
凤凰网· 2025-05-28 17:23
腾讯发布开源语音数字人模型HunyuanVideo-Avatar - 公司正式发布并开源语音数字人模型HunyuanVideo-Avatar 该技术仅需用户提供一张人物图像和一段音频文件即可自动生成包含自然表情、精准唇形同步以及全身动作的动态视频内容 [1] - 该模型基于腾讯混元视频大模型与MuseV技术深度融合开发 具备强大的多模态理解能力 能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容 [1] - 模型突破了传统数字人技术仅支持头部驱动的局限性 全面支持头肩、半身与全身三种景别模式 同时覆盖多种艺术风格和多物种角色驱动 并具备双人或多人互动场景的处理能力 [1] 技术架构与应用场景 - 模型采用多模态扩散Transformer(MM-DiT)作为核心架构 通过角色图像注入模块确保视频中人物的一致性表现 音频情感模块能够从声音和图像中提取情感特征 [2] - 针对多人场景 模型配备面部感知音频适配器 利用人脸掩码技术实现多角色的独立精准驱动 [2] - 该模型已在腾讯音乐娱乐集团多个核心产品中实现落地应用 包括QQ音乐的AI虚拟形象同步演唱 酷狗音乐的AI虚拟人讲故事 以及全民K歌的用户专属MV生成功能 [2] 技术优势与开放计划 - 在主体一致性和音画同步准确度方面已达到业内领先水平 超越现有开源和闭源解决方案 在画面动态性和肢体自然度表现上与其他主流闭源方案处于同等技术水准 [2] - 单主体功能已在腾讯混元官方网站开放体验 用户可通过"模型广场-混元生视频-数字人-语音驱动"路径访问相关功能 当前支持不超过14秒的音频文件上传 [3] - 公司将逐步开源更多高级功能模块 此次开源举措将推动AI视频生成技术的普及应用 为短视频创作、电商营销、广告制作等垂直领域提供低成本的技术解决方案 [3]
国产AI技术加速重构行业格局 快手可灵系列大模型市场份额超30%
证券日报· 2025-05-17 00:39
从市场表现来看,可灵AI的用户规模和使用频率均呈现出快速增长趋势。自发布以来,可灵AI全球用 户规模已突破2200万,月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片,特别是在4月 末发布的可灵2.0大师版,仅在3周后就在Poe平台上拿下了20.9%的份额。 此外,快手可灵的商业化进程同样跑出加速度。快手最新财报显示,今年2月份可灵AI累计营业收入已 超过1亿元;今年前3个月,可灵AI营收超过2024年总和。 一位不愿具名的行业分析师对《证券日报》记者表示,国产视频大模型发展前景广阔。技术上,生成时 长、分辨率等性能持续提升,可灵等模型已展现竞争力。应用上,影视、广告、教育等多领域加速渗 透,大幅降本增效。商业化方面,会员制等模式逐步成熟,头部企业已实现千万级月流水。随着算力成 本下降与多模态融合深化,国产视频大模型有望引领全球内容生产范式变革。 有业内人士对《证券日报》记者表示,快手可灵系列市场份额超30%,彰显其技术实力与商业化落地能 力。依托海量短视频数据优势,可灵在视频时长、分辨率等关键指标上突破,精准匹配行业需求。伴随 着生态体系完善与迭代加速,可灵有望持续领跑市场,重塑AI视频 ...
爱诗科技完成近3亿元A+轮融资,核心AI视频生成产品PixVerse全球用户数超1200万
IPO早知道· 2024-12-18 11:14
融资情况 - 爱诗科技完成A2至A4轮融资,总金额近3亿元人民币,A2轮由蚂蚁集团投资,A3、A4轮由北京市人工智能产业投资基金、国科投资及光源资本投资 [3] - 光源资本继续担任独家财务顾问,融资将用于提升技术研发能力、扩展算力资源及建设人才团队 [3] 产品与用户数据 - 核心产品PixVerse全球用户数超1200万,月活跃用户数近600万 [4] - 2024年10月发布的PixVerse V3版本因"毒液变身"等创意特效功能在海内外社交媒体走红 [4] - 2024年12月PixVerse移动App在海外上线,同时面向企业用户开放技术合作服务 [4] 技术进展 - PixVerse V3.5版本进入内测阶段,生成耗时缩短至30秒以内,提示词响应及运动控制能力提升 [5] - 公司拥有Character2Video(人物一致性)模型技术,通过ID精准约束保持视频人物形象与背景一致性 [5] - 新一代模型融合生成数据与渲染数据,具备卓越的视觉文本特征对齐能力和上下文理解能力 [5] - 在SuperCLUE中文大模型测评中,PixVerse V3综合能力超越Sora,位列全球第一 [5] 行业与战略定位 - 公司创始人认为视频大模型需注重产品化价值,目标打造全球领先的AI视频生成技术 [5] - 光源资本判断AI视频生成大模型将革新内容产业生产力,中国团队有望全球领先 [5] - PixVerse已成为全球用户量最大的国产AI视频生成工具,并实现商业化闭环 [5] 其他行业动态 - 智谱完成30亿元融资,商业化收入增长超100% [9] - 全灵SEELE完成千万美元Pre-A轮融资,由前网易云音乐创始人创办 [9] - 潞晨科技完成数亿元A++轮融资,专注DataBricks平台及视频生成大模型 [9]