Workflow
视频生成
icon
搜索文档
视频生成进入精准控制时代,创作平权带动B/C两端加速渗透
东方证券· 2026-02-08 22:19
行业投资评级 - 行业评级为“看好”(维持)[4] 报告核心观点 - 核心观点:年初至今,多模态视频生成赛道国产模型加速迭代,推动行业技术整体上行,与海外差距显著收窄[1] - 最大的边际变化在于,智能分镜降低用户进入门槛,多模态统一架构支持创作意图表达更高效灵活且可控性提升[1] - 判断2026年B端和C端拓展均会有较大进展,模型厂商在卷技术的同时,重点观测景气内容赛道的AI渗透[1] 行业动态与技术演进 - 视频生成赛道迭代提速,推动行业技术跃升,海内外技术差距持续收窄[7] - 国内视频生成厂商进一步加速模型研发节奏,例如快手可灵从2.0版本(2025年4月)迭代至3.0版本(2026年2月),即梦Seedance从1.0版本(2025年6月)迭代至2.0版本(2026年2月)[7] - 随着最新模型发布,国内供给侧技术天花板提升,物理规律合理性、运动流畅性、指令遵循能力等基础属性均显著增强[7] - 分镜能力、音画同出功能缺位补齐且效果更好更可控[7] - 与海外差异化在于支持图片、音频、视频等多模态输入的参考生成,和视频二次编辑能力[7] - 视频生成赛道进入类似2025年大语言模型(LLM)的竞争状态,各家基础能力均达到较高水准,后续差异化或在于具体落地场景[7] 技术边际变化与影响 - 视频生成进入精准可控“仪表盘时代”,门槛降低带动B端和C端用户扩容[7] - 近期迭代的最新模型(如Vidu Q3/可灵 3.0/Seendance2.0)基本支持多模态输入架构,即可上传图片、视频、音频进行参考生成,相较去年的随机生成,可控性更强,抽卡成品率也显著提升[7] - 单次生成时长更友好(增至15秒左右),进一步降低了B端和C端用户的创作门槛[7] - 国产模型基本补齐多镜头叙事功能,对于泛C端小白用户,只要具备好想法就能借助工具创作;对于B端创作者,模型自主设计每个分镜头,降低了对创作者分镜功底的要求[7] - 模型支持对生成内容进行精细化的增、删、改操作,快速完成二次调整[7] - 判断2026年模型的技术迭代更往生产流程落地,帮助创作者高效表达意图、实现可控创作[7] 投资建议与相关标的 - 投资建议:应重视垂类多模态AI应用机会,看好技术突破、成本优化带来产业趋势加速发展,带动用户增长、付费渗透和商业化再上台阶[2] - 尤其关注有多模态AI应用出海布局的公司,起量速率或更快[2] - 相关标的包括:谷歌(ALPHABET)-A(GOOGL.O,未评级)、快手-W(01024,买入)、MINIMAX-WP(00100,未评级)、美图公司(01357,买入)[2]
全新视角看世界模型:从视频生成迈向通用世界模拟器
机器之心· 2026-02-07 12:09
文章核心观点 - 视频生成与世界模型是人工智能领域的热点,其目标是从生成逼真短片发展为可用于推理、规划与控制的通用世界模拟器,并与具身智能、自动驾驶等前沿场景深度交织,被视为通往通用人工智能的重要路径[2] - 当前研究存在定义模糊、分类重叠等问题,限制了技术标准化发展,为此快手可灵团队与香港科技大学(广州)团队联合发表了一篇系统综述,旨在弥合当代“无状态”视频架构与经典“以状态为中心”世界模型理论之间的鸿沟[2][3] - 该综述首次提出了以“状态构建”与“动态建模”为双支柱的全新分类体系,并倡导将评估标准从单纯的“视觉保真度”转向“功能性基准”,为视频生成演进为鲁棒的通用世界模拟器提供了清晰的路线图[3] 核心理论贡献 - 提出了全链路视角,涵盖从底层理论定义、中层架构设计到上层功能性评估的全生命周期分析,确保对视频世界模型全方位的理解[8] - 首次将当代“无状态”的视频扩散架构与经典的基于模型强化学习、控制理论进行深度映射,为世界模型找到了坚实的理论根基[8] - 明确了“持久性”与“因果性”是迈向通用世界模拟器的两大核心关隘,为业界从被动的“像素预测”转向具备闭环交互与因果干预能力的模拟器提供了清晰的路径参考[8] - 深度梳理了2024至2025年间涌现的视频生成最新工作,反映了当前技术从视觉保真度向物理一致性转化的前沿趋势[8] 世界模型的三大基石与核心操作 - 观察:环境的原始感官数据,在视频模型中表现为高维的像素级输入,提供世界的局部、间接视图[8] - 状态:模型通过提炼历史观察,过滤噪声,形成的足以解释当前世界的“内部表示”[8] - 动态变化:预判未来的“引擎”,它刻画了状态随时间演变的规律,让模型具备在脑海中“预演”物理法则的能力[9] - 状态估计:把高维、连续的观测序列压缩成一个紧凑的状态表示,用来刻画环境在当前时刻的关键状态[13] - 状态转移:刻画环境在动作作用下的因果演化,是世界模型的“内部模拟引擎”,用于预测未来状态或观测[13] 世界模型的学习方式 - 闭环学习:世界模型与策略模型联合训练,世界模型的参数更新直接受策略目标影响,可进一步分为顺序组合架构与统一架构[14] - 开环学习:将世界模型视为通过大规模被动数据预训练得到的独立模拟器;策略模型可在自身优化中调用世界模型进行“想象/规划”,但世界模型不接收来自策略奖励信号或损失函数的梯度更新[14] 支柱一:状态构建 - 现代视频生成模型在状态层面存在关键差距:多数模型缺乏显式压缩状态,而以观测序列充当隐式状态,随时间增长带来计算/记忆负担并削弱长程持久性[12] - 隐式状态范式:不构建固定大小的显式状态变量,而是通过外部记忆机制管理历史观测,动态提炼出“工作记忆”来支撑生成所需的长期一致性与上下文连贯[16] - 显式状态范式:将状态构建内化为模型自身的压缩过程,把历史上下文持续蒸馏进一个全局更新的潜在变量中,使其成为对视频演化过程的固定维度、可递推的数学摘要[17] - 隐式状态的管理机制主要包括压缩、检索和巩固三种核心操作,以处理长上下文信息[18] - 显式状态根据其与生成骨干的融合程度,可分为耦合状态与解耦状态[19] - 隐式状态与显式状态的系统性对比:隐式状态机制依赖外部管理,上下文选择多为启发式学习或基于规则,持久性受限于窗口,计算复杂度随历史长度线性或二次增长;显式状态机制依赖内部递归,上下文选择基于学习的物理/转移规律,支持全局连续性和无限时长,计算复杂度为常数[23] - 总体取舍是:隐式状态目前更稳妥地支持高保真视频生成,而显式状态更像通往高效、可长期推理的自主智能体与世界模拟的前沿方向[22] 支柱二:动态建模 - 现代视频生成模型在动态层面存在关键差距:标准模型常以双向注意力“一次性渲染”固定时长片段,缺少显式时间因果推进[12] - 增强因果推理能力的两条主要路径:一是因果架构重构,从模型结构与训练目标入手,把生成过程从“一次性渲染”改造成“按时间顺序预测”;二是因果知识集成,引入具备更强推理能力的多模态大模型作为“规划者/导演”,先在高层完成规划,再由视频生成模型负责高保真“渲染”[25] 评估标准的演进 - 主张将评估从“视觉美感”推进到“功能基准”,并提出三条核心评价轴:质量、持久性和因果性[26] - 质量:关注基础视觉保真度、短程时序相干性以及文本/条件对齐能力,代表性工具如VBench/VBench++等[44] - 持久性:关注长时程生成的稳定性与一致性,并通过“场景重访”等记忆任务检验模型能力,相关评测包括WCS以及基于rFID的重建一致性测试等[44] - 因果性:重点检验模型是否真正内化物理与逻辑规律,评测包括时间顺序与物理有效性,以及反事实干预下的响应是否合理,并进一步延伸到agent-in-the-loop的任务成功率与规划表现[44] 未来研究方向 - 视频生成迈向世界模拟的关键在于补齐两项核心能力:持久性与因果性[27] - 持久性方面:隐式状态需要从固定窗口等启发式记忆升级为可学习、可动态筛选的信息管理机制;显式状态则要在压缩效率与细节保真之间找到更好的平衡[27] - 因果性方面:一条路线是通过架构与数据设计提升因果推断能力,另一条路线是引入理解模型的推理先验来约束生成,但如何有效对齐生成与理解仍是核心挑战[27]
清华系创企,拿下国内视频生成领域最大单笔融资
36氪· 2026-02-05 16:50
公司融资与估值 - 生数科技完成超过6亿元人民币A+轮融资 创下国内视频生成领域单笔融资额新纪录 超越此前爱诗科技保持的4.3亿元纪录 [1] - 本轮融资由中关村科学城公司和星连资本领投 万兴科技、视觉中国、拓尔思进行战略投资 原有股东启明创投、北京市人工智能产业投资基金等加码跟投 [1] - 公司2025年实现用户和收入超10倍增长 用户和业务覆盖全球200多个国家和地区 [1] - 公司2023年6月天使轮融资时估值为1亿美元(约合人民币6.9亿元) 后续融资未披露最新估值 [7] - 公司累计完成6次融资和1次股权转让 历史投资方包括华为、蚂蚁、百度、智谱等知名企业 [7][9] 公司技术与产品 - 公司主要研发多模态通用大模型及应用 通过SaaS、MaaS、App等产品形态为个人用户、专业创作者和企业客户提供服务 [2] - 公司是全球最早研究多模态生成算法的团队之一 其创始团队于2022年9月提出U-ViT架构 比OpenAI的DiT架构早三个月 [2] - 公司于2024年在海内外上线文生视频大模型Vidu 并在2024年至2026年间对Vidu系列模型进行三次迭代 [2] - 2026年1月30日 公司发布面向专业级影视制作场景的Vidu Q3模型 [3] - Vidu Q3模型支持16秒声画同出、1080P画质、丰富的镜头语言、精准切镜、多国文字渲染和多语言输出 [4] - Vidu模型首创“参考生视频”技术 支持上传图片等多种素材作为参考元素生成视频 并具备专门的一致性保持算法以解决商业级视频需求的多主体连续一致性难题 [2] 公司市场地位与客户 - 根据Artificial Analysis最新榜单 Vidu Q3模型在视频生成领域排名中国第一、全球第二 仅次于xAI的Grok 超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2 [3][6] - 在影视(漫剧/短剧/电影)行业 Vidu覆盖全行业超过九成的内容方、工具方与制作机构 合作客户包括索尼电影、腾讯动漫、爱奇艺、芒果TV等 [7] - 在互联网和智能硬件行业 客户涵盖字节跳动、三星、万兴科技、好未来、支付宝、荣耀等 主要应用于内容生产及产品交互创新 [7] - 公司在广告、游戏等行业也拥有多家客户 产品在海外市场有所建树 [7] - 智谱MaaS平台已接入生数科技Vidu API并对外提供服务 [7] 公司团队与战略 - 公司于2023年3月创立于北京 联合创始人朱军、唐家渝、鲍凡均为清华大学背景 朱军为清华大学人工智能研究院副院长 [1] - 2025年3月 原字节跳动火山引擎AI解决方案负责人骆怡航加入公司并担任CEO 全面负责研发、产品、商业化及团队管理工作 [1] - 公司认为多模态视频模型不仅能用于数字内容创作与交互 更能构建理解真实世界规律的世界模型以端到端支持机器决策 未来可能探索机器人、具身智能等物理AI场景 [2] 行业动态与竞争格局 - 视频生成赛道热度不减 创业公司持续获得巨额资本加持 例如爱诗科技于2025年9月完成由阿里巴巴领投的6000万美元B轮融资 Video Rebirth同期完成5000万美元融资 [10] - 大厂在视频生成赛道重点布局 例如快手旗下的可灵AI 2025年总销售额预计达1.4亿美元 年度经常性收入(ARR)突破2.4亿美元 [10] - 在海外 谷歌推出的Veo系列模型凭借生成效果与用户口碑快速占据市场 并依托其生态系统持续扩大影响力 [10]
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架
机器之心· 2025-12-27 12:01
文章核心观点 - 当前视频生成领域的人物定制研究普遍存在一个根本性缺陷,即假设单视角下的人物相似度等同于身份保留,而忽视了真实电影制作中身份认知依赖于多视角与多光照下的稳定表现 [4][5][6] - 公司提出“Virtually Being”框架,其核心论点是:要真正学会一个人的身份,模型必须学习其在多视角与多光照下的外观,身份应被视为一个4D(空间+时间)一致的概念,而非静态的2D属性 [8][9] - 通过系统性引入基于4D重建的多视角表演数据与真实光照变化数据,该框架为解决视频生成中的多视角身份一致性问题提供了一条更贴近电影制作实际需求的路径 [10][37] 当前研究范式的问题与挑战 - **单视角假设的局限性**:主流人物定制范式(给定单张或少量人物图像生成视频)隐含了错误假设,即单视角相似度等于身份保留,但这在真实视频与电影语境中不成立 [4] - **身份具有视角依赖性**:面部轮廓、五官比例、体态与衣物形态会随观察角度发生系统性变化,单张图像无法覆盖侧脸、背面及连续视角变化中的外观一致性 [5] - **相机运动暴露问题**:相机运动会持续暴露未见过的外观区域,放大身份不一致性 [5] - **多人场景放大错误**:当多个角色同框时,轻微的身份漂移会变得非常明显 [5] - **研究空白**:显式关注多视角身份保留在当前视频定制化生成研究中几乎没有被系统性地解决 [7] Virtually Being 框架的方法论 - **数据层面重新设计**:从数据层面重新设计了人物定制流程,以解决多视角身份被长期忽视的问题 [11] - **多视角表演采集**:使用专业体积捕捉系统(75相机面部捕捉阵列、160相机全身捕捉阵列)采集真实人物在受控条件下的动态表演,而非依赖单视角参考图像 [12][14] - **4D高斯溅射作为数据生成器**:利用4D Gaussian Splatting对采集的表演进行高质量重建,生成多视角视频数据,为模型提供多视角下的身份一致性监督 [12][15] - **两阶段训练策略**: - **阶段一:相机感知预训练**:基于ControlNet架构,引入完整3D相机参数,在大规模公开视频数据上训练,使模型掌握电影级镜头语言 [18] - **阶段二:多视角身份定制**:在预训练模型基础上,使用4DGS渲染的多视角视频进行微调,为每个身份引入专属token,将身份与多视角外观显式绑定 [19] - **引入光照真实感**:通过引入基于HDR的视频重打光数据,对同一人物生成多种自然光照条件,使模型学会在光照变化下保持身份稳定 [23] - **多人物生成支持**:支持通过联合训练或推理阶段噪声混合的方式,实现多人物自然同框与互动,前提是模型对每个角色在不同视角与光照下的身份都有稳定建模 [26][27][28] 实验效果与验证 - **身份指标领先**:系统性实验表明,使用多视角数据训练的模型,在AdaFace等身份指标上显著优于仅使用正面视角数据及其他视频定制方法 [32] - **关键数据对比**:在文本到视频定制任务中,该框架的AdaFace得分为0.351,显著高于对比方法MagicMe(0.280)、ConsisID(0.301)等 [35] - **用户研究偏好明确**:在用户研究中,该框架生成结果在“多视角身份”项获得81.34%的偏好率,远超其他方法(最高为ConsisID的12.96%)[35] - **光照真实感提升**:引入重光照数据后,83.9%的用户认为生成视频的光照更自然、更符合真实拍摄效果 [23] - **单视角数据对比**:即使与自身仅使用正面视角数据的版本相比,完整框架在AdaFace得分(0.351 vs 0.327)和动态程度(0.72 vs 0.59)上仍有优势 [35] - **图像到视频定制有效**:在图像到视频定制任务中,该框架版本获得65.43%的用户偏好,优于非定制化基准的34.57% [35]
生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持
36氪· 2025-12-24 15:58
行业技术突破 - 视频生成行业面临长视频“内容漂移”的核心挑战,即模型在生成过程中难以保持物体和背景的一致性,尤其是在第一人称视角等复杂场景下[1] - 北京大学、中山大学、浙江大学、中科院和清华大学的研究团队联合发布全新长上下文扩散模型EgoLCD,旨在解决长视频生成中的内容漂移问题[2] - EgoLCD在EgoVid-5M基准测试中,在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型[3] 核心技术架构 - EgoLCD首创了模仿人类大脑的“长短时记忆”系统,长期记忆负责全局稳定性,短期记忆负责快速适应局部变化[5] - 长期记忆采用稀疏KV缓存机制,只存储和检索关键的“语义锚点”,显著降低显存占用并锁定全局一致性[11] - 短期记忆结合注意力机制与LoRA作为隐式记忆单元,以快速捕捉当前视角的剧烈变化[11] - 模型引入了结构化叙事提示方案,在训练时使用GPT-4o生成详尽的帧级描述,在推理时通过检索前序提示来引导生成,确保连贯性[7][8] 模型性能表现 - 在感知质量指标上,EgoLCD在图像质量上得分为0.6852,运动平滑度得分为0.9956,美学质量得分为0.6047,背景一致性得分为0.9588,主体一致性得分为0.9597,清晰度得分为0.7551[9] - 在NRDP指标上,EgoLCD在运动、美学、背景和主体的一致性上表现优异,得分分别为0.0119、0.9618、0.2945和0.0844[9] - 在与其他模型的对比中,EgoLCD的CD-FVD指标为187.94,语义一致性为0.291,动作一致性为0.510,清晰度得分为0.530,运动平滑度为0.992,运动强度为20.732,各项指标均优于SVD、DynamiCrafter和OpenSora等模型[12] - 实验显示,EgoLCD在NRDP-Subject和NRDP-Background指标上取得压倒性优势,漂移率极低[13] - 模型能够生成长达60秒的连贯视频,人物衣着和背景细节始终保持一致[15] 行业应用与前景 - EgoLCD被视为一个“第一人称世界模拟器”,其生成长时程、高一致性视频的能力,可为具身智能提供海量训练数据,模拟复杂的物理交互和长序列任务[15] - 该技术被认为是向构建具身智能世界模型迈出的关键一步,让通过视频教会机器人理解世界的梦想变得更清晰[3][15]
相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」
机器之心· 2025-12-21 12:21
文章核心观点 - 香港科技大学、复旦大学等机构的研究团队提出了一种名为DualCamCtrl的全新端到端几何感知扩散模型框架,旨在解决现有视频生成模型在相机运动控制中缺乏显式几何理解的问题 [3] - 该模型通过创新的双分支扩散架构和语义引导互对齐机制,能够同步生成与镜头运动一致的RGB与深度序列,从而更好地解耦外观与几何建模 [3][9] - 大量实验表明,DualCamCtrl在相机运动一致性方面显著优于现有方法,相机运动误差降低超过40% [4][28] 技术架构与核心设计 - **双分支视频扩散框架**:模型采用双分支架构,一条分支生成RGB表示,另一条分支生成深度表示,两种模态通过SIGMA机制进行融合,以实现连贯的几何引导 [7][9] - **语义引导互对齐机制**:SIGMA机制采用语义引导的双向设计,浅层以RGB特征锚定语义结构,深层则引入深度反馈优化几何表达,以促进RGB与深度模态的有效协同 [11][17] - **分阶段训练策略**:模型采用两阶段训练策略,第一阶段为解耦训练阶段,使RGB与深度分支分别专注学习外观与几何表征;第二阶段为融合训练阶段,引入融合模块实现跨模态交互与联合优化 [11][18][21] 性能表现与实验结果 - **定性分析**:在相同输入条件下,DualCamCtrl在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法 [23][26] - **定量分析(图像到视频)**:在RealEstate10K数据集上,DualCamCtrl的FVD指标为80.38,FID指标为49.85,均显著优于对比方法MotionCtrl(FVD: 137.4, FID: 71.70)和CameraCtrl(FVD: 118.7, FID: 69.90)[27] - **定量分析(文本到视频)**:在RealEstate10K数据集上,DualCamCtrl的FVD指标为408.1,优于AC3D的415.6、CameraCtrl的426.8和MotionCtrl的506.9;其CLIPSIM指标为0.3154,也优于其他对比方法 [27]
自驾世界模型剩下的论文窗口期没多久了......
自动驾驶之心· 2025-12-11 08:05
行业趋势与研究方向 - 近期自动驾驶世界模型相关论文爆发式增长,涌现出MindDrive、Think Before You Drive、U4D、SparseWorld-TC、AD-R1、Percept-WAM等多项工作 [1] - 根据顶会接收规律,选题多为局部突破与可验证改进,并紧贴当年主旋律,例如2024年为多模态,2025年为视频生成 [1] - 参照2026年各大顶会中稿论文,预测今年年底至明年上半年的主旋律极有可能是世界模型,当前布局该方向具有前瞻性优势 [1] 公司业务与服务定位 - 公司提供自动驾驶、具身智能、机器人等方向的论文辅导服务,旨在帮助学生冲击高区或顶会论文发表 [2] - 服务内容包括掌握技术脉络、复现模型、产出1篇论文初稿及投稿指导 [2] - 公司旗下拥有自动驾驶之心、具身智能之心、3D视觉之心等多个技术自媒体平台,是国内最大的AI类技术自媒体平台之一 [3] - 公司深耕自动驾驶、具身智能、机器人等交叉学科领域多年,拥有国内顶尖的学术资源 [3] 服务团队与过往业绩 - 公司拥有超过300名专职于自动驾驶/具身智能方向的导师,导师来自全球QS排名前100的院校,并发表过多篇顶会、子刊及A/B会论文 [5] - 近3年累计辅导学员超过400名,中稿率高达96% [5] - 过往成功案例显示,学员覆盖博一至在职等不同阶段,辅导周期在2至4个月,成果发表于NEUROCOMPUTING(2区)、CVPR(顶会)、emnlp(顶会)等多种期刊与会议 [6] 服务内容与价值主张 - 服务旨在解决学生科研中的常见痛点,如导师指导不足、知识体系零散、对投稿流程不熟悉等 [4][7] - 具体帮助包括建立科研思维、系统掌握经典与前沿算法、结合模型理论与代码实践、将baseline深化拓展形成个人论文 [7] - 提供个性化论文指导、导师实时互动、录播无限回看、免费课后答疑及24小时无时差上课等服务 [13] - 提供从选题、调研、idea验证、代码、实验、润色、投稿到中稿的一站式科研服务,目标覆盖CCF-A/B/C、SCI1-4区及EI会议 [13] 目标客户与附加价值 - 主要服务方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [10] - 目标学员需自带简历并具备一定的PyTorch基础 [10] - 服务满足多种需求,包括积累科研经验、提升职称、提高学术成就;提升人工智能领域从业者竞争力以助升职加薪;以及为考研、申博、留学提升简历含金量 [14] - 优秀学员有机会获得清北、MIT等名校推荐信,或被推荐至相关实验室实习;表现突出者可获内推至阿里达摩院、华为诺亚方舟等企业研发岗位 [19] 服务模式与保障 - 服务采用班主任全程督学模式,跟进学习进度 [17] - 提供精准导师匹配系统,根据学员研究方向、目标期刊和基础水平,从300多名导师中筛选3至5位最契合人选供学员选择 [18] - 为零基础学员提供基础课程,通过系统学习,据称6个月可完成一篇小论文 [17] - 提供预收定金后与名师meeting的机会,并承诺若不满意可免费更换老师或退款 [19]
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学
量子位· 2025-11-22 11:07
技术突破 - 提出“视频作为答案”新范式,将AI回答从文字描述升级为动态视频生成[3][8] - 模型能够理解输入视频和问题,推理出符合逻辑的下一事件,并生成视觉连贯的视频[11][12][13] - 核心创新在于Joint-GRPO强化学习算法,协同优化视觉语言模型和视频扩散模型,解决语义与视觉错配问题[19][21][24] 模型架构 - 采用两阶段工作流程:感知与推理阶段生成描述下一事件的文本标题,条件化生成阶段结合文本和视觉特征生成答案视频[20] - 通过专业化分工与协同优化,实现理解与生成能力的同步提升,相比统一模型在关键指标上取得显著进步[47][48] 性能表现 - 在事件预测准确性指标ROUGE-L上,VANS相比最强统一模型取得近三倍性能提升[46] - 生成视频语义忠实度指标CLIP-T大幅领先,视频质量指标FVD达到最低分数78.32,显示更高视觉逼真度[47][48] - 定性分析显示模型在细粒度语义理解与可视化上具有优势,能精准呈现如“撒碎芝士”等具体动作[51][53] 应用场景 - 程序性教学领域可实现定制化教学视频,根据用户当前进度生成无缝衔接的指导内容[37][39][40] - 多未来预测功能支持基于不同假设生成多种合理未来视频,为创意写作和互动娱乐开辟可能性[41][43]
腾讯元宝上线视频生成能力
观察者网· 2025-11-21 16:58
产品发布与核心能力 - 公司于11月21日正式发布并开源HunyuanVideo 1.5模型,该模型基于Diffusion Transformer架构,参数量为8.3B,是一款轻量级视频生成模型 [1] - 模型支持生成5-10秒的高清视频,用户可通过输入文字描述实现文生视频,或上传图片配合文字描述将静态图片转化为动态视频 [1] - 模型具备全面核心能力,支持中英文输入的文生视频与图生视频,图生视频能力展现出图像与视频的高度一致性 [4] - 模型具备强指令理解与遵循能力,能精准实现多样化场景,包括运镜、流畅运动、写实人物和人物情绪表情等多种指令,并支持写实、动画、积木等多种风格 [4] 技术规格与画质 - 模型可原生生成5–10秒时长的480p和720p高清视频,并可通过超分模型提升至1080p电影级画质 [4] - 模型还支持在生成的视频中嵌入中英文文字 [4] 性能基准对比 - 在文生视频任务GSB评测中,相较于Seedance pro模型,HunyuanVideo胜率为+11.02% [6] - 在文生视频任务GSB评测中,相较于Kling2.1模型,HunyuanVideo胜率为+12.6% [6] - 在文生视频任务GSB评测中,相较于Wan2.2模型,HunyuanVideo胜率为+17.12% [6] - 在图生视频任务GSB评测中,相较于Kling2.1模型,HunyuanVideo胜率为+9.72% [6] - 在图生视频任务GSB评测中,相较于Wan2.2模型,HunyuanVideo胜率为+12.65% [6]
快手:三季度经营利润同比增长69.9% 可灵AI收入超3亿元
中证网· 2025-11-20 14:03
财务业绩 - 第三季度总营收同比增长14.2%至355.54亿元,经营利润同比增长69.9%至52.99亿元,经调整净利润同比增长26.3%至49.86亿元 [1] - 其他服务收入(包含电商、可灵AI)同比增长41.3%至59亿元,线上营销服务收入同比增长14%至201亿元,直播业务收入同比增长2.5%至96亿元 [1] - 可灵AI收入超过3亿元,电商GMV同比增长15.2%至3850亿元 [1] - 快手应用平均日活跃用户达4.16亿,平均月活跃用户达7.31亿 [1] AI业务与战略 - 公司将财务表现归因于AI能力在业务场景中的深度融合 [2] - 可灵AI推出2.5 Turbo模型,在文本响应、动态效果、风格保持、美学质量等多个维度实现提升 [2] - 公司聚焦于AI影视创作核心目标,围绕技术领先性与产品想象力双线推进,并围绕多模态交互理念持续升级 [2] 行业竞争与展望 - 视频生成赛道涌现众多参与者,行业处于快速技术迭代和产品形态探索的早期阶段,竞争推动技术进步和场景渗透 [2] - 可灵AI依靠持续创新,处于全球视频生成赛道第一梯队 [2] - Sora 2等产品加速视频生成与社交互动融合,C端消费级应用落地进程加快 [3] - 公司当前主要精力面向专业创作者提升体验和付费意愿,同时保持对C端应用场景的探索,未来计划将技术能力与社交结合以加速商业化 [3]