视频生成

搜索文档
爱诗科技CEO王长虎:视频是最贴近用户的内容形态,好的模型带来了好的产品
华尔街见闻· 2025-06-06 21:20
公司发展历程 - 爱诗科技成立于2023年4月 专注于视频生成大模型领域 创始团队拥有抖音/TikTok视频AI技术背景 [5][6][7] - 2023年7月启动模型训练 10月进入全球视频生成第一梯队 2024年1月海外网页端正式上线 [7][8] - 2024年10月V3版本上线后用户量快速增长 月活跃用户突破1600万 2025年2月移动端APP上线后月活超6000万 [4][22][23] - 2025年6月推出国内版"拍我AI" 对齐海外PixVerse最新功能并本土化 [23] 产品与技术亮点 - PixVerse在全球第三方评测中位列视频生成领域前三 与可灵 海螺并称三大图像生成产品 [4] - V3版本实现"毒液变身"等爆款功能 用户仅需上传照片即可生成视频 抽卡成功率接近100% [17][18] - V4支持5秒生成5秒视频 实现有声视频生成 V4 5新增多角色联动 电影级运镜等专业功能 [21][22] - 移动端上线4个月即进入美国iOS总榜前四 "Photo and Video"分类排名第一 [22] 关键战略决策 - 选择视频生成赛道 尽管2023年该领域融资环境冷淡 但团队认为视频是终极内容形态 [6][7][9] - Sora发布后坚持投入大模型训练 采用DIT架构 3-6个月内实现技术追赶 [11][12] - 优先布局ToC海外市场 通过降低创作门槛(免Prompt)和提升体验(高成功率)引爆用户增长 [16][17] 行业竞争格局 - 2024年Sora发布后 视频生成从非共识变为热门赛道 Google 字节等大厂加速入场 [11] - 中国AI出海产品中 PixVerse增速排名第二 11月访问量增长80% [15] - 全球视频生成领域形成"三强"格局 爱诗科技 可灵 海螺占据用户量前三 [4] 商业化进展 - 2024年12月上线移动端后 迅速进入全球AI应用TOP100榜单(第52位) [4] - 2025年1月启动B端API服务 覆盖电商 营销等场景 基于6000万用户数据优化 [23] - 毒液特效在国内二手平台售价达18元/个 引发病毒式传播 [15]
CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现
量子位· 2025-06-05 16:32
MMLab@NTU团队 投稿 量子位 | 公众号 QbitAI 图像生成已经"卷"入日常,视频生成也不再是最初的"抖动幻影",而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。 视频生成是否能成为通往世界模型的桥梁? 它是否具备成为可执行、可交互、可推理的智能中枢? 它是否正在走向支撑具身智能(Embodied Intelligence)的核心能力? 这些问题将在 CVPR 2025 Tutorial 《From Video Generation to World Models – 从视频生成到世界模型》中深入探讨。 如何将视频生成作为强大的视觉先验,赋能 AI 感知世界、理解交互、推理物理,从而迈向更通用、更具具身智能能力的世界模型。 本Tutorial(教程)汇聚来自学术界与产业界的一线研究者: 他们将在生成建模、3D理解、强化学习与物理推理等方向展开分享,探讨如何将生成能力转化为感知、预测与决策的智能基座。 日程安排一览(CVPR 2025 |6 月 11 日) | Time (GMT-5) | Programme | | --- | --- | | 09:20 - 09:30 | Ope ...
本周日不见不散!CVPR 2025北京论文分享会最后报名了
机器之心· 2025-06-03 16:57
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高 度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。 从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最 初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。 因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等 热门主题邀请顶级专家、论文作者与现场参会观众共同交流。 作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投 稿,最终接收 2878 篇论文,整体接收率为 22.1%。 作为一场为国内 AI 人才打造的盛会,本次论文分享会 ...
全日程公布|谷歌Veo 3惊艳发布后,这场CVPR分享会值得每个AI人「听个声」
机器之心· 2025-05-27 14:38
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高 度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。 从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最 初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。 因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等 热门主题邀请顶级专家、论文作者与现场参会观众共同交流。 作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投 稿,最终接收 2878 篇论文,整体接收率为 22.1%。 作为一场为国内 AI 人才打造的盛会,本次论文分享会 ...
Veo3逼真脱口秀火爆全网,视频生成的GPT时刻到了吗?
第一财经· 2025-05-26 11:02
Veo 3技术特点 - Veo 3新增原生音频生成功能,可同步生成环境音和人物对话,突破视频生成的"无声时代"[4] - 模型实现真正原生多模态,文字生成动画同时自动完成音乐、音效、配音和对口型,大幅简化工作流程[7] - 视频生成质量显著提升,光线处理、人物神态和长镜头运动具有电影质感,但存在LOGO显示错误等一致性瑕疵[4][12] - 对复杂物理现象的推断能力是其逼真效果的核心,谷歌通过严格数据质量管理优化模型性能[10][11] 市场应用与成本效益 - 商业应用案例显示,传统50万美元的广告制作可被500美元Veo 3积分替代,成本降低约1000倍[7] - AI制作电影成本估算为9万美元/3小时,相比好莱坞传统制作便宜10-20倍[10] - 个人创作者使用Veo 3生成1.5分钟短片成本约70美元(6000-7000积分),但成片率受文生视频不可控性影响[16] - 订阅成本高昂,商业用户需支付每月249.99美元套餐费(前三月优惠价124.99美元),额外积分按1.5美元/8秒计费[16] 行业影响与局限性 - 技术被视为AI影像工作流雏形,可能颠覆传统影视制作模式,类似数码相机终结柯达垄断的变革[10] - 当前主要适用于文生视频场景,但行业主流工作流依赖图生视频,导致实际生产应用受限[15] - 中文支持不足,存在台词丢失、对话主体混乱等技术缺陷,8秒视频容量达到对话上限[14] - 谷歌凭借YouTube数据资源优势持续优化模型,但行业普遍认为尚未达到"GPT时刻"级突破[12][17] 创作者评价 - 专业创作者肯定其效率提升价值,但指出视频生成质量"低于预期",与国内第一梯队产品图生效果相当[3][15] - 现阶段工具更适合氪金玩家或商业项目,普通用户面临价格门槛和技术瑕疵双重限制[17] - FLOW剪辑工具的推出预示AI影像新工作流可能性,但完全替代传统流程仍需长期迭代[4][15]
鹅厂开源视频生成大杀器!参考图主体精准复刻,还能编辑现有视频
量子位· 2025-05-09 15:03
产品功能 - 公司开源"自定义"视频生成模型HunyuanCustom,主打主体一致性功能,用户仅需一张图片即可确定视频主角,一致性评分达到开源模型SOTA水平[1] - 模型支持单主体参考、多主体参考、局部编辑、角色配音四大功能,其中单主体参考已上线并开源,其余功能计划本月内开源[2][3] - 团队正在与开源社区合作,将适配AI创作者常用的ComfyUI[4] 技术表现 - 在单主体视频定制任务中,HunyuanCustom在身份一致性(Face-Sim)和主体相似性(DINO-Sim)两个指标上分别达到0.627和0.593,超过所有baseline方法[39] - 人物特征保持方面表现优异,包括五官、发色、服饰等细节特征在不同场景下都能保持一致[8][10] - 支持局部视频编辑功能,可对已有视频中的特定对象进行替换[29][30][32] - 支持音频驱动功能,可生成口型匹配的视频,但当前语音合成仍存在机械感问题[35][36][37] 技术架构 - 模型以文生视频模型HunyuanVideo为基础,针对不同任务类型配备相应模块[45] - 图像驱动任务采用LLaVA文本-图像交互模块和身份增强模块,增强对输入图像身份信息的理解和融合[46][47][50] - 音频驱动部分采用身份解耦的AudioNet模块,确保音频条件不影响人物身份一致性[53][54][56] - 视频驱动部分采用视频条件注入策略,通过特征叠加方式保留视频条件中的时空信息[58][59][61] - 训练过程中采用Flow Matching框架优化视频生成模型,并引入辅助损失函数实现多任务学习[67][68][69] 系统要求 - 目前支持720P画质,需要支持CUDA的英伟达GPU[42] - 生成720P视频最少需要24GB显存,推荐配置为80GB显存[43][44]
昆仑万维:一季度营收大幅增长46% AI算力芯片取得突破性进展
证券时报网· 2025-04-29 10:00
财务表现 - 2025年一季度公司实现营业收入17.6亿元,同比增长46% [1] - 研发费用4.3亿元,同比增长23% [1] - AI音乐年化流水收入ARR达1200万美金(月流水100万美金),短剧平台Dramawave年化流水ARR达1.2亿美金(月流水1000万美金) [1] - 海外业务收入16.7亿元,同比增长56%,占营收比重提升至94% [1] - Opera收入同比增长41% [4] AI技术突破 - 多模态推理模型Skywork R1V达到开源SOTA水平 [2] - 视频生成领域SkyReels-V1模型与SkyReels-A1算法位居全球领先,后者实现技术突破性SOTA [2] - AI音乐领域Mureka V6与全球首款融合CoT技术的Mureka O1形成组合优势,Mureka O1登顶行业SOTA [2] AI算力芯片进展 - 控股AI算力芯片企业北京艾捷科芯,完成"算力基础设施—大模型算法—AI应用"全产业链布局 [3] - 攻克多项核心技术难关,整体研发进度过半,向量产迈进 [3] - 艾捷科芯员工数量接近200名,覆盖芯片设计、算法研发、系统集成等专业领域 [3] AI产品规划 - 计划2025年5月中旬在海外发布全球首款生产力场景通用Agent平台Skywork.ai [3] - Skywork.ai包含五大专家级AI Agent,覆盖专业文档、数据表格、演示文稿、播客及网页内容优化 [3] - 支持跨模态内容创作,可高效生成MV、宣传片、有声读物、互动绘本等多媒体内容 [3] 业务战略 - 全球化战略成效显著,国际化布局持续深化 [1] - 未来将持续推进AI算力芯片研发及AI应用矩阵落地 [4]