视频生成
搜索文档
在夹缝中生存12年,他终于打造了国产AI活跃用户数第一的产品|WAVES
36氪· 2025-10-31 01:47
文 | 施嘉翔 编辑 | 刘旌 很多人认为,AI是属于年轻人的机会,所以很难想象一款月活用户过千万的AI产品会出自一位年过四 十的创始人。 这位创始人叫段江,这款产品叫Fotor。Fotor不在北上广深、也不在美国硅谷,偏安于中国西南一隅 ——成都。 据AI产品榜,全球超过5000个AI应用中,按用户数计,Fotor常年排在AI应用出海榜中国前列,并曾是 国内唯一月活用户超过千万的AI产品。 曾经,美图筹集的资金数量几十倍于Fotor,于是段江决定暂避锋芒,放弃国内,转向海外,并将精力 放在获客成本更低的PC; 七年前,当第一轮的融资额快被用完时,Fotor被几乎所有的资方拒绝,不得已结束免费、提前进入付 费阶段; 第二次图像变革来临时,Fotor后知后觉学着Canva增加了图文排版功能,但流量红利已经过去,基于公 司人数和精力分配,这个业务在2020年前后暂停; 甚至在用户量爆发的三个月前,公司正被投资人要求回购,几乎把账上的现金全部清空。 十年前反共识的路径让Fotor错失了移动互联网的大潮,但这反而让Fotor成为中国现在难得的、有利 润、有规模的AI公司。 这是一个非典型的创业故事,它能告诉我们的,也 ...
美团LongCat-Video视频生成模型发布:可输出5分钟长视频
凤凰网· 2025-10-27 15:32
公司技术发布 - 美团LongCat团队正式发布LongCat-Video视频生成模型 [1] - 模型基于Diffusion Transformer架构,支持文生视频、图生视频及视频续写三类核心任务 [1] - 模型宣称在开源模型中达到先进水平 [1] 模型技术规格 - 模型可生成720p分辨率、30帧率的高清视频 [1] - 模型能够原生生成长达5分钟的连贯视频内容 [1] - 模型通过视频续写预训练、块稀疏注意力等机制解决长视频生成中的画面断裂、质量下降问题 [1] - 模型参数量为136亿 [1] 模型性能与效率 - 模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,推理速度提升超过10倍 [1] - 模型在VBench等公开测试中表现出较强的文本对齐与运动连贯性 [1] 技术应用与战略意义 - 模型作为构建"世界模型"的技术尝试,未来或可应用于自动驾驶模拟、具身智能等长时序建模场景 [1] - 该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步 [1]
AI时代的短视频:Sora2的答案
新财富· 2025-10-24 16:08
Sora 2 的技术突破与产品定位 - 核心突破在于首次实现“长时叙事完整性”与“物理逻辑真实性”的规模化平衡,物理规律符合率较初代提升47个百分点至88% [8] - 实现音画一体化生成,声画同步误差小于120毫秒,并支持多镜头叙事,可生成逻辑连贯的2分钟级长视频 [9][10] - 产品形态为短视频应用,用户可通过提示词生成视频并进行二创,浏览方式为主流的上下滑动刷新 [2] Sora 2 的流量获取与社交功能 - 通过Cameo功能用户可复制自身形象与声音并植入AI生成场景,通过Remix功能允许用户对他人视频进行二次创作 [11] - 平台允许用户只浏览不创作,旨在打破创作者圈子以实现广泛传播,类似于早期小咖秀通过低门槛和强娱乐性完成流量原始积累 [4][15] OpenAI 的战略转型与商业化进程 - 公司正从研究型企业向产品生态构建者转型,通过APP ADK将ChatGPT变为“AI应用商店”并接入Uber等11家企业 [17] - 推出OpenAI浏览器Atlas和降低开发门槛的Agent Kit,单人不到7分钟即可完成一个可部署应用,人效提升超20倍 [18] - 商业化加速源于资金压力,2025年上半年现金消耗达25亿美元,全年预计85亿美元,且与软银的对赌协议要求年底前完成向营利性公司转型 [20] 行业竞争格局 - 谷歌Veo 3.1模型新增视频控制功能并能生成背景音乐,但未达预期,模型质量无明显进步,在复杂场景下物理规律易出错 [19] - OpenAI在谷歌发布Veo 3.1几小时后立即宣布Sora 2更新,凸显视频生成领域竞争激烈 [18] AI视频应用的挑战与前景 - AI视频应用面临留住稳定流量的挑战,关键在于能否像抖音一样通过推荐算法持续吸引用户注意力 [22] - 制作门槛降低可能反而提高创作门槛,吸引人的决定因素更侧重于想法的质量 [24]
四款视频大模型横评:从“概念演示”迈向“准实时创作”
海通国际证券· 2025-10-17 17:11
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告核心观点 - 视频生成技术正从“概念演示”阶段迈向“准实时创作”阶段 [1] - 在付费分层与算力约束并存的背景下,视频大模型的商业化路径日趋清晰 [4] - 国内外模型生态差距正逐步收窄,竞争焦点转向算力储备、数据质量与产品细节打磨 [3] - 该技术演进将推动影视产业资源更精准地配置于核心价值环节,大幅压缩前期方案验证成本 [5] 模型性能横评总结 - 四款主流视频生成模型(Sora 2, Veo 3.1, 可灵, 即梦)生成速度普遍较快,平均仅需1至2分钟即可生成一段5秒视频 [1][2] - Veo 3.1在风格还原、构图意图及镜头语法理解方面表现最为准确 [1][2] - Sora 2在动态模糊、景深与材质反射方面的写实感最强,观感接近实拍,但其产品形态更侧重移动端竖屏信息流,导致横屏输出能力与画面清晰度相对偏向轻量化 [1][2] - 可灵与即梦在中文友好度与易用性上表现突出,与海外顶级模型的差距正在快速收敛 [1][3] 模型规格与生态比较 - Veo 3.1的API预览支持4/6/8秒短片,其Flow功能引入“场景续写”最长可延展至约1分钟段落,并支持16:9与9:16画幅输出 [7] - Sora 2的官方应用默认生成10秒竖屏视频,支持Portrait/Landscape切换,并提供“Cameos”功能可将用户形象嵌入视频 [7] - 可灵官方发布可生成时长至2分钟、1080p、30fps的视频,并在质量、稳定性与成本上持续迭代 [7] - 即梦作为字节跳动旗下平台,与剪映/抖音生态结合紧密,提供从文本到视频的一站式创作体验,会员配额适合高频产出 [3][7] 商业化与基础设施 - OpenAI首席执行官Sam Altman已公开表明,新一代高算力功能将优先面向付费用户开放,并可能对Sora 2等视频生成能力实施分级收费机制 [4] - 基础设施层面正经历“超级计算中心化”变革,以微软与OpenAI筹划中的“Stargate”百亿美元级超算数据中心为代表的大规模产业投资正在进行 [4] - 国际能源署预测,至2030年全球数据中心耗电量或将翻倍至约945 TWh,其中AI推理是核心增长驱动力,这从成本端固化了视频生成服务的高溢价属性 [4] 对影视产业的影响 - 在广告、预告片、预视觉化等前期方案验证中,AI视频技术将大幅压缩勘景、实拍与特效制作的试错成本 [5] - 结合Veo 3.1等具备镜头级控制能力的工具,从剧本到样片的迭代周期有望从“周级”缩短至“小时级” [5] - 一种“低成本验证、高投入精制”的混合工作流变得可行:AI先生成低清晰度内容雏形用于审核试映,确认方向后再由传统制作管线进行高精度复刻与精修 [5]
Sora2甚至可以预测ChatGPT的输出
量子位· 2025-10-02 13:30
文章核心观点 - Sora2展现出超越视频生成的多模态能力,包括预测大语言模型输出、渲染HTML代码、理解物理现象和精准还原游戏细节,模糊了视频生成与交互式AI的边界 [6][13][26] 多模态交互能力 - Sora2能够模拟与ChatGPT的交互过程,生成包含问题提问和语音回答的完整视频,例如根据提示生成关于猫的俳句并配以机械女声回答 [4][5] - 该模型展现出理解并执行复杂指令的能力,其生成的俳句音节严丝合缝,体现了对语言结构的把握 [5] 代码渲染与浏览器模拟功能 - Sora2具备渲染HTML代码的能力,根据粘贴的HTML代码生成的视觉效果与真实浏览器渲染效果高度相似 [7][8][10][12] - 该功能表明模型可能超越了传统视频生成器的范畴,展现出类似浏览器的渲染能力 [13] 物理现象理解能力 - 在未明确提示的情况下,Sora2能够准确模拟玻璃折射的物理现象,如通过装满水的玻璃杯展现箭头图像的翻转效果 [14][15][16][18] - 这种对物理世界的深入理解能力获得了行业观察者的高度评价 [19] 游戏内容还原精度 - 根据《赛博朋克2077》支线任务的提示词,Sora2能够精准还原游戏中的关键要素,包括地图位置、生物群落、地形、车辆设计和帮派名称 [21][22][24] - 尽管在巨蜥坦克移动方式和帕纳姆位置两个细节上存在微小误差,但从海量信息中准确提取并整合支线任务要素的能力反映了模型较强的信息处理智能 [25]
Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了
机器之心· 2025-10-01 07:49
产品发布与定位 - OpenAI 在行业其他公司专注于大模型时,悄然发布了视频生成模型 Sora2 [1] - 此次发布是直接产品化,推出了名为“Sora”的 iOS 社交应用,并配套了视频推送算法 [3] - OpenAI 将 Sora2 定位为视频领域的“GPT-3.5 时刻”,类比于 ChatGPT 带来的行业变革 [8] 技术能力与突破 - Sora2 在物理准确性、真实感和可控性方面均优于以往的视频生成系统 [5] - 模型能够呈现高难度动态场景,如奥运体操动作、精确模拟浮力和刚性动态变化 [12] - 系统能够模拟失败场景,例如篮球未投中时会从篮板反弹,而非扭曲物理定律,这在世界模拟能力上是一项重要进步 [13] - 该模型具备同步的对话和音效能力,能以高度真实感创建复杂的背景音、语音和音效 [6][15] - 引入了“上传你自己”功能,可将现实世界的人、动物或物体元素高保真地注入到生成的任何视频环境中 [16][19] - 模型在可控性方面取得重大飞跃,能够遵循复杂的多镜头指令并准确维持世界状态,擅长写实、电影和动漫风格 [14] 产品功能与体验 - 新推出的“Sora”应用允许用户创作作品、进行二次创作,并在可定制的信息流中发现新视频 [19] - 核心功能“客串(cameos)”使用户在验证身份后,能以极高逼真度融入任何 Sora 生成的场景,用户对自身形象拥有完全的使用控制权 [19][20] - 应用设计理念是最大限度地促进创作而非消费,默认信息流内容严重偏向用户关注或互动的人,以及可能激发创作灵感的视频 [22] 推荐算法与安全理念 - OpenAI 开发了一类新的可通过自然语言指令设定的推荐算法,以解决视频成瘾和内容推送优化问题 [22] - 算法内置机制会定期询问用户身心健康状况,并主动提供调整信息流的选项,公司声称并非针对用户观看时长进行优化 [22] - 公司在应用中解决了使用肖像的许可、来源出处及防止生成有害内容等多项安全问题 [22] 市场进入与可用性 - Sora iOS 应用现已在美国和加拿大可供下载,初始阶段免费并提供较为宽松的算力限制 [25] - ChatGPT Pro 用户可在 sora.com 上使用实验性的、更高质量的 Sora 2 Pro 模型 [25] - OpenAI 计划在未来通过 API 发布 Sora 2 [25] 行业影响与愿景 - 从2024年2月发布的初代 Sora(被视为视频领域的GPT-1时刻)到 Sora2,公司证明了通过扩大视频数据上的神经网络规模可更接近模拟现实 [11][17] - OpenAI 认为 Sora 将是一个比现有平台更有利于娱乐与创意发展的平台 [23]
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 15:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
阿里通义万相新突破:静态图+音频,轻松生成电影级数字人视频!
搜狐财经· 2025-08-28 04:45
公司技术发布 - 阿里通义万相正式开源多模态视频生成模型Wan2.2-S2V 支持通过单张静态图片和音频生成电影级数字人视频 [1] - 模型单次生成视频时长可达分钟级别 可应用于数字人直播 影视后期制作及AI教育等行业 [2] - 该模型已在通义万相官网 Hugging Face及魔搭社区等平台上线供开发者及行业用户免费试用 [2] 技术特性与性能 - Wan2.2-S2V采用音频驱动技术 实现面部表情生动 口型同步和动作流畅的视频生成效果 [1][3] - 模型支持不同分辨率视频生成 包括竖屏短视频和横屏影视剧格式 [3] - 引入AdaIN和CrossAttention两种控制机制 实现更准确动态的音频控制效果 [3] - 前代产品Wan2.2-I2V-Flash推理速度较前代提升12倍 显著降低使用门槛 [3] 产品矩阵与开源进展 - 公司于2025年7月28日开源Wan2.2系列模型 包含文生视频 图生视频及统一视频生成三类 [3] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型 [3] - 开源模型包括通义万相2.2-S2V-14B 通义万相2.2-图生视频-A14B-Diffusers等多个版本 均采用Apache 2.0许可证 [2] 应用案例与效果 - 测试显示模型可处理真人 卡通 动物及数字人形象 生成说话 唱歌 表演等多种动作 [3][5] - 使用欧美人物照片配合中文音频生成视频时 面部表情和嘴部动作与音频完美同步 光线变化自然 [5] - 动画人物测试中可实现自动添加背景音乐 虽嘴部线条识别仍有提升空间 但整体效果出色 [5] 行业影响与前景 - 技术突破有望极大提升数字人直播 影视制作 AI教育等行业的视频创作效率 [2][3] - 模型为快速发展的数字人直播和影视制作行业提供了高效视频创作工具解决方案 [5] - 行业预计随着技术迭代完善 视频生成领域将迎来更多创新和突破 [5]
快手(01024)绩后连续两个交易日累计涨幅超8%,获11家机构集体上调目标价
智通财经网· 2025-08-25 11:11
股价表现 - 8月25日早盘股价涨幅一度逼近5% 绩后连续两个交易日累计涨幅超8% [1][2] - 强势表现源于超预期二季度业绩 获得11家机构一致上调目标价 [1] 财务业绩 - 二季度多项核心财务指标表现亮眼 利润水平、可灵业务收入及电商GMV均超出市场预期 [1] - 公司宣布派发特别股息 增强投资者信心并被解读为现金流充裕和管理层对未来盈利前景乐观 [1][2] 机构评级 - 上调目标价的机构包括高盛、摩根士丹利、杰富瑞、大和、麦格理、中金公司、华泰证券、招银国际、中银国际、交银国际和大华银行 [1] - 多家机构调整后的目标价较当前股价仍有显著上行空间 [2] 业务分析 - 可灵独立估值逻辑正在强化 部分投行基于2026年PE倍数上调目标价 另一些则对可灵业务进行单独估值重估 [1] - 预计公司将维持视频生成领域图生视频技术能力及商业化变现领先 [2] - 人工智能领域持续加大资本开支但仍保持整体利润率稳定 [1] 运营前景 - 高盛指出公司在保持稳定利润率和主业超大盘增长中找到平衡 [1] - 招银国际认为利润率可在加大AI投入基础上保持稳定 主要得益于强劲运营杠杆 [1] - 瑞银预计下半年电商GMV增长达13%跑赢行业整体水平 [2] - 交银国际看好泛货架等多场域运营提升跨场景电商复购 [2]
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 09:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]