视频生成

搜索文档
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 15:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
阿里通义万相新突破:静态图+音频,轻松生成电影级数字人视频!
搜狐财经· 2025-08-28 04:45
公司技术发布 - 阿里通义万相正式开源多模态视频生成模型Wan2.2-S2V 支持通过单张静态图片和音频生成电影级数字人视频 [1] - 模型单次生成视频时长可达分钟级别 可应用于数字人直播 影视后期制作及AI教育等行业 [2] - 该模型已在通义万相官网 Hugging Face及魔搭社区等平台上线供开发者及行业用户免费试用 [2] 技术特性与性能 - Wan2.2-S2V采用音频驱动技术 实现面部表情生动 口型同步和动作流畅的视频生成效果 [1][3] - 模型支持不同分辨率视频生成 包括竖屏短视频和横屏影视剧格式 [3] - 引入AdaIN和CrossAttention两种控制机制 实现更准确动态的音频控制效果 [3] - 前代产品Wan2.2-I2V-Flash推理速度较前代提升12倍 显著降低使用门槛 [3] 产品矩阵与开源进展 - 公司于2025年7月28日开源Wan2.2系列模型 包含文生视频 图生视频及统一视频生成三类 [3] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型 [3] - 开源模型包括通义万相2.2-S2V-14B 通义万相2.2-图生视频-A14B-Diffusers等多个版本 均采用Apache 2.0许可证 [2] 应用案例与效果 - 测试显示模型可处理真人 卡通 动物及数字人形象 生成说话 唱歌 表演等多种动作 [3][5] - 使用欧美人物照片配合中文音频生成视频时 面部表情和嘴部动作与音频完美同步 光线变化自然 [5] - 动画人物测试中可实现自动添加背景音乐 虽嘴部线条识别仍有提升空间 但整体效果出色 [5] 行业影响与前景 - 技术突破有望极大提升数字人直播 影视制作 AI教育等行业的视频创作效率 [2][3] - 模型为快速发展的数字人直播和影视制作行业提供了高效视频创作工具解决方案 [5] - 行业预计随着技术迭代完善 视频生成领域将迎来更多创新和突破 [5]
快手(01024)绩后连续两个交易日累计涨幅超8%,获11家机构集体上调目标价
智通财经网· 2025-08-25 11:11
股价表现 - 8月25日早盘股价涨幅一度逼近5% 绩后连续两个交易日累计涨幅超8% [1][2] - 强势表现源于超预期二季度业绩 获得11家机构一致上调目标价 [1] 财务业绩 - 二季度多项核心财务指标表现亮眼 利润水平、可灵业务收入及电商GMV均超出市场预期 [1] - 公司宣布派发特别股息 增强投资者信心并被解读为现金流充裕和管理层对未来盈利前景乐观 [1][2] 机构评级 - 上调目标价的机构包括高盛、摩根士丹利、杰富瑞、大和、麦格理、中金公司、华泰证券、招银国际、中银国际、交银国际和大华银行 [1] - 多家机构调整后的目标价较当前股价仍有显著上行空间 [2] 业务分析 - 可灵独立估值逻辑正在强化 部分投行基于2026年PE倍数上调目标价 另一些则对可灵业务进行单独估值重估 [1] - 预计公司将维持视频生成领域图生视频技术能力及商业化变现领先 [2] - 人工智能领域持续加大资本开支但仍保持整体利润率稳定 [1] 运营前景 - 高盛指出公司在保持稳定利润率和主业超大盘增长中找到平衡 [1] - 招银国际认为利润率可在加大AI投入基础上保持稳定 主要得益于强劲运营杠杆 [1] - 瑞银预计下半年电商GMV增长达13%跑赢行业整体水平 [2] - 交银国际看好泛货架等多场域运营提升跨场景电商复购 [2]
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 09:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]
咪咕等公司取得视频生成相关专利
搜狐财经· 2025-08-12 13:08
专利授权 - 咪咕文化科技、中国移动通信集团、北京京东尚科信息技术联合取得"视频生成方法、装置、设备及计算机可读存储介质"专利,授权公告号CN115100338B,申请日期为2022年6月 [1] 咪咕文化科技 - 公司成立于2014年,位于北京市,主营软件和信息技术服务业,注册资本1040000万人民币 [1] - 对外投资9家企业,参与招投标2550次,拥有商标信息982条、专利信息2700条、行政许可10个 [1] 中国移动通信集团 - 公司成立于1999年,位于北京市,主营电信、广播电视和卫星传输服务,注册资本30000000万人民币 [1] - 对外投资55家企业,参与招投标5000次,拥有商标信息2219条、专利信息5000条、行政许可51个 [1] 北京京东尚科信息技术 - 公司成立于2012年,位于北京市,主营软件和信息技术服务业,注册资本26000万人民币 [2] - 对外投资9家企业,参与招投标111次,拥有商标信息474条、专利信息5000条、行政许可3个 [2]
活动报名:AI 视频的模型、产品与增长实战|42章经
42章经· 2025-08-10 22:04
AI视频模型技术路径与能力展望 - Luma AI模型产品Lead戴高乐分享视频模型与世界模型的技术路径及未来能力展望 [2] - 探讨视觉模型从diffusion到DiT再到autoregressive的技术演进历程 [3] - 分析更智能的视觉模型能力发展前景 [3] Pixverse用户增长与商业化策略 - 爱诗科技联合创始人谢旭璋分享Pixverse两年内实现6000万用户的关键决策 [3] - 外部模型、自研模型与应用产品的选择与迭代策略 [4] - 从模型到特效类产品的转化逻辑及0-6000万用户的增长点与商业化路径 [4] 视频工具产品增长方法论 - 前OpusClip增长产品负责人谢君陶提出视频工具获客需聚焦创作者长期合作模式 [5] - 转化阶段强调灵活精准的定价策略与分阶段价格实验设计 [5] - 留存策略以用户为中心,通过客服团队与运营保持长期连接 [5] - 早期数据基建的取舍与数据驱动决策在增长中的关键作用 [5] 行业交流活动信息 - 活动聚焦AI视频领域模型、产品、增长三大维度实战经验分享 [10] - 线上会议时间为8月16日10:30-12:30,限额100人(非投资行业优先) [7][10]
马斯克:接下来的几天里Grok lmagine视频生成对所有美国用户免费
第一财经· 2025-08-07 16:04
(文章来源:第一财经) 据外媒报道,马斯克称,在接下来的几天里,Grok lmagine视频生成对所有美国用户免费。 ...
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:32
AI视频生成行业动态 - 创作者Hashem AI-Ghaili使用AI工具在12天内以500美元成本制作出短片《Kira》,在YouTube和Bilibili分别获得5.9万和47.9万次观看 [2] - 另一部短片《The Colorless Man》制作成本仅600美元,使用ChatGPT、MidJourney等工具完成脚本、图像、视频、语音等全流程 [4] - 视频生成赛道从最初不被看好到1年后出现商业成功案例,如可灵年化营收突破1亿美元 [7] 可灵公司发展 - 可灵用户规模从2024年Q3的500万快速增长至4500万,均为付费用户 [8][15] - 年化营收(ARR)在2024年3月突破1亿美元,超过MiniMax的7000万美元预期收入 [7] - 在Poe平台市场份额达30%,超过Runway的23.6% [18] - Freepik平台数据显示可灵生成视频数量超过其他模型总和 [19] 技术迭代与功能创新 - 推出"首尾帧"功能让用户通过两张图片生成连贯过渡视频 [9] - 1.5版本新增"运动笔刷"、"人脸一致性"、"口型同步"等功能提升视频可控性 [11] - 1.6版本推出"多图参考"功能,用户可上传多张图片作为生成参考 [13][14] - 2.0版本整合多模态交互方式MVL,允许文字、图片、视频片段等多种输入 [15] - 最新推出"灵动画布"功能,整合文生图、图生视频等流程并支持团队协作 [23][24][25] 行业竞争格局 - 可灵在国内领先生数科技(ARR 2000万美元)、字节跳动即梦AI(ARR<1000万美元)等竞争对手 [17] - 全球范围内与Runway(ARR 8400万美元)形成竞争 [17] - 面临Google Veo 3(支持生成带声音视频)和字节跳动Seedance 1.0等新模型的追赶 [21][23] - 行业用户忠诚度低,新模型上线会快速改变市场份额分布 [21] 商业化应用前景 - 视频生成技术已应用于Netflix《the eternaut》、Amazon Prime《House of David》等影视作品 [27] - 广告营销行业广泛应用AI技术生成素材,如保持模特一致性推广不同产品 [34] - 好莱坞态度从抵触转为拥抱,出现AI分镜师等新职业 [41][42] - 预计未来将向Agent方向发展,实现从脚本到视频的自动化生成 [45]
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:22
视频生成行业现状 - 视频生成行业在2024年迎来爆发式增长,可灵等公司已实现商业化成功,年化营收突破1亿美元[11][22] - 行业标杆公司Runway去年12月ARR达8400万美元,可灵与之不相上下[22] - 国内竞争对手如生数科技Vidu产品ARR为2000万美元,字节跳动即梦AI和Minimax海螺AI均未达1000万美元[22] - 全球用户对视频生成工具忠诚度低,新模型上线会迅速改变市场份额分布,如Google Veo 3上线后份额从0增至30%[25] 可灵公司发展 - 可灵用户规模从2024年1月的600万快速增长至2025年4月的4500万,3个月内增长近2倍[20][57] - 可灵在Poe平台市场份额达30%,超过Runway的23.6%[23] - 在Freepik平台,可灵生成的视频数量超过其他所有模型总和[23] - 公司年化营收在2025年3月突破1亿美元,超过MiniMax预期的7000万美元[11][22] 技术发展 - 视频生成技术仍处于早期阶段,类似LLM的GPT-2时期,存在常识和逻辑错误[11] - 可灵通过多模态交互方式(MVL)提升生成效果,允许用户以文字、图片、视频等多种方式输入指令[19] - 关键技术创新包括首尾帧、运动笔刷、人脸一致性、多图参考等功能,大幅提升视频生成可控性[16][18][19] - 1.6版本是多图参考功能推出的重要分水岭,使可灵用户从600万增至2200万[20][48] 产品迭代 - 可灵在1年内发布5个版本更新,从1.0迭代至2.1[13][20] - 1.5版本引入运动笔刷、人脸一致性、口型同步等功能[16] - 1.6版本推出多图参考功能,成为用户增长转折点[18][20] - 2.0版本整合所有交互功能,推出MVL多模态交互方式[19] - 最新推出"灵动画布"功能,实现工作流整合和团队协作[28][31] 行业应用 - AI视频生成已应用于影视制作,如Netflix《the eternaut》和Amazon《House of David》使用AIGC镜头[34] - 广告营销行业深度应用AI技术,可实现模特一致性推广不同产品[51] - 职业细分出现AI分镜师、AI视频生成师等新岗位[61] - 视频素材生成市场规模达千亿级别,已形成完整产业链[34] 未来趋势 - Agent技术将成为下一阶段发展方向,实现创作流程自动化[66] - 视频生成将不仅服务于存量市场,还将创造具备实时性和互动性的新内容形态[67] - 行业竞争加剧,Google已发布自带声音的Veo 3模型,字节跳动整合资源加速追赶[25][26] - 技术领先性、产品创新和创作者社区将成为核心竞争壁垒[55]