CogVideoX - 财报，业绩电话会，研报，新闻

CogVideoX

搜索文档

新浪财经· 2026-01-08 18:17

上市概况与市场表现 - 智谱华章于2026年1月8日在港交所上市，股票代码02513.HK，收盘价为131.5港元/股，较发行价上涨13.17%，市值达到579亿港元，被称为“全球大模型第一股” [1] - 公司以每股116.2港元的价格公开发行3741.95万股H股，募资总额为43.48亿港元，募资净额的70%将用于通用AI大模型的研发投入 [2] - 公司IPO发行市值超过511亿港元，是其2025年5月最后一轮融资后估值244亿元的2.1倍，意味着最后一轮投资者在半年多时间获得2.1倍回报 [2] 财务表现与业务结构 - 公司营收快速增长，从2022年的0.57亿元增至2024年的3.12亿元，两年增长4.4倍，2025年上半年营收为1.91亿元，同比增长3.2倍 [15] - 2024年在中国独立通用大模型开发商中营收位列第一，在所有通用大模型开发商中位列第二，市场份额为6.6% [10] - 营收主要来源于两大业务：本地化部署业务是核心收入支柱，2024年营收2.64亿元，毛利率高达66%；云端部署业务是第二增长曲线，2024年营收4.85亿元，但毛利率从2022年的76.1%大幅下滑至2024年的3.4% [16][17][19] - 公司持续亏损且规模扩大，2024年亏损近30亿元，2025年上半年亏损23.58亿元，截至2025年6月末总负债攀升至112.52亿元，净资产为-61.51亿元 [1][39] 投资回报与股东情况 - 按发行价计算，参与公司三轮14次融资的57家外部投资者整体浮盈3.4倍，总投资金额为83.6亿元，持股市值达313.57亿港元 [4] - 多家知名投资机构获得高额回报：美团旗下天津三快投资3亿元，账面浮盈约5.7倍；腾讯投资投入2亿元，浮盈3.6倍；蚂蚁集团旗下公司投资6亿元，浮盈约2倍；雷军控制的北京顺赢投资1.5亿元，浮盈2.6倍；今日资本徐新控制的全德美嘉投资2.553亿元，浮盈3.6倍 [8][9] - IPO有11家基石投资者，合计认购29.84亿港元的股份，占拟募资总额的68.63% [3][4] - 公司员工持股广泛，截至2025年6月末，883名员工中有452名持股，占比高达51.2%，通过慧惠和智登两大平台持有公司总股本的16.55% [27][28] 技术实力与产品矩阵 - 公司拥有全面的大模型产品矩阵，包括基座模型（如GLM-4.5、GLM-4.6）、反思及沉思模型（GLM-Z1系列）、多模态模型（图像、视频、语音生成与理解）以及智能体（AutoGLM系列） [10][11][12] - 技术积累起源于清华大学计算机系知识工程实验室，核心创始人团队均为数据科学家和工程师，首席科学家张钹为中科院院士 [20][21] - 公司模型在幻觉率控制上表现突出，GLM-4.5-Air及GLM-4.6的幻觉率分别为9.3%及9.5%，处于较低水平，GLM-4.5在RAG领域的幻觉率为全球第二低及中国最低 [12][13] - 模型已应用于互联网、传统制造业、零售等多个行业，客户包括金山办公、智联招聘、蒙牛乳业等 [13] 研发投入与成本结构 - 公司研发投入强度极高，2024年研发开支21.95亿元，是同年营收3.12亿元的7倍，2025年上半年研发投入15.95亿元，是营收的8.3倍 [22][23] - 研发团队有657人，占总员工数的74.4%，公司在中国拥有86项注册专利及234项申请专利 [23] - 研发成本结构发生显著变化，算力服务费成为最大支出，2024年算力服务费达15.53亿元，占研发支出的70.7%，2025年上半年进一步增至11.45亿元，同比增长90% [25][26] - 总费用支出大幅增长，从2022年的1.32亿元增至2024年的27.16亿元，两年间放大20.5倍 [24] 市场前景与行业背景 - 中国AI市场规模从2022年的937亿元增至2024年的1607亿元，年复合增长率为31%，预计到2030年将增至9930亿元，年复合增长率35.5% [10] - 中国大语言模型市场规模2024年为53亿元，其中机构客户贡献47亿元，占比89%，预计到2030年市场规模将增至1011亿元，年复合增长率高达63.5% [18] - 公司机构客户数量增长迅猛，从2022年的48家增至2024年的3156家，到2025年9月已超过1.2万家 [18] - 云端部署业务的日均token消耗量从2022年的5亿飙涨至2025年6月末的4.6万亿 [18] 融资历程与估值变化 - 公司在2022年1月至2025年5月期间完成了三轮共14次融资，合计募集资金超过83亿元，估值从天使轮的约4亿元放大至B6轮后的244亿元，增长约60倍 [30][36] - 历次重大产品发布都伴随着融资和估值抬升，例如发布GLM-130B后B2轮估值升至32亿元，发布ChatGLM后B4轮估值增至72.28亿元，发布智谱清言后B5轮估值超过133.6亿元 [36][37] - 2025年5月完成最后一轮大规模融资（B6轮）43.77亿元后，公司加快了上市进程 [37]

36氪· 2026-01-08 17:31

2026年1月8日，成立六年的智谱AI，正式在香港联合交易所挂牌上市。智谱首日开盘价120港元/股，市值528.28亿港元。在智谱本次IPO发行中，香港公开发售获1159.46倍认购，国际发售获15.28倍认购。以每股116.20港元的发行价计算，智谱本次IPO募资总额超43亿港元。智谱上市，图片来源：智谱一边是敲钟带来的确定性，一家大模型公司终于完成了从长期潜伏到接受市场公开定价的身份转换；另一边，则是围绕商业模式、持续亏损、技术路径与市场想象力的集中审视。究竟该如何在极具不确定性的大模型范式下，看待一家极其追求稳定性与可预期、可控性的中国上市公司？我们想通过四个问题来分析智谱： 1.智谱是"中国OpenAI"吗？ 2.投资人们在押注什么？ 3.智谱的商业模式究竟健不健康？ 4.上市后的智谱，"钱路"在何方？不过，几乎所有讨论的起点，都不可避免地回到了那个被反复提及又具有一定争议的标签——"中国OpenAI"。这个标签，既是智谱过去数年最重要的叙事助推器，也正在成为其上市之后必须主动面对、甚至卸下的认知负担。今天的智谱，站在了一个极其复杂的交叉点上。智谱是"中国OpenAI"吗？ "中 ...

搜狐财经· 2026-01-08 16:42

智谱从来不是，也不必成为"中国OpenAI"。作者｜刘杨楠编辑｜王博 2026年1月8日，成立六年的智谱AI，正式在香港联合交易所挂牌上市。在智谱本次IPO发行中，香港公开发售获1159.46倍认购，国际发售获15.28倍认购。以每股116.20港元的发行价计算，智谱本次IPO募资总额超43亿港元。智谱上市，图片来源：智谱今天的智谱，站在了一个极其复杂的交叉点上。究竟该如何在极具不确定性的大模型范式下，看待一家极其追求稳定性与可预期、可控性的中国上市公司？我们想通过四个问题来分析智谱：一边是敲钟带来的确定性，一家大模型公司终于完成了从长期潜伏到接受市场公开定价的身份转换；另一边，则是围绕商业模式、持续亏损、技术路径与市场想象力的集中审视。 1.智谱是"中国OpenAI"吗？智谱首日开盘价120港元/股，市值528.28亿港元。 2.投资人们在押注什么？ 3.智谱的商业模式究竟健不健康？ 4.上市后的智谱，"钱路"在何方？不过，几乎所有讨论的起点，都不可避免地回到了那个被反复提及又具有一定争议的标签——"中国OpenAI"。这个标签，既是智谱过去数年最重要的叙事助推器，也正在成为其上市之 ...

智谱（02513）：从清华实验室到港股AI新贵，关注模型迭代与生态飞轮

东吴证券· 2026-01-07 21:06

报告投资评级 - 投资评级：暂无 [1] 报告核心观点 - 智谱AI是中国领先的独立通用大模型开发商，源自清华大学知识工程实验室，采用自研的GLM预训练框架，在长文本理解、逻辑推理和低幻觉率方面具备独特优势 [6] - 公司坚持开源与商业化并行策略，已构建覆盖语言、多模态、代码和智能体领域的完整模型矩阵，旗舰模型GLM-4.5和GLM-4.7在多项国际基准测试中位居开源模型前列 [6] - 按2024年收入计算，公司在中国独立通用大模型开发商中排名第一，市场份额为6.6% [6] - 公司商业模式以MaaS平台为核心，双轮驱动本地化部署与云端部署，目标未来提升云端API收入占比 [6] - 公司处于大规模研发投入阶段，持续亏损，但随着收入规模扩大、算力适配优化和运营效率提升，预计亏损幅度将逐步收窄 [6] - 作为纯大模型玩家，受益于云端规模效应和Agent/编程场景红利，随着收入快速增长，PS估值有向30倍以下快速压缩的空间，估值定位合理，建议关注 [7] 公司概况 - 智谱AI成立于2019年，由清华大学知识工程实验室技术成果转化而来 [6] - 公司自研GLM预训练框架，采用自回归填空设计，与主流GPT架构不同 [6] - 截至2025年上半年，公司已服务超过8000家机构客户，中国前十大互联网公司中有9家使用其GLM模型 [6] - 开源模型全球下载量超过4500万次，MaaS平台注册开发者超过270万 [6] - 公司于2025年底通过港交所聆讯，2026年1月8日在香港主板上市，成为全球首家上市的基座大模型企业 [6] - 创始团队通过一致行动协议控制约33%股份，美团、阿里巴巴、腾讯、小米、高瓴等知名投资者入股 [6] 商业模式与运营 - 商业模式核心为MaaS平台，提供本地化部署和云端部署两种服务形式 [6] - 本地化部署面向政企客户，提供私有化运行和定制服务，2025年上半年收入占比84.8%，毛利率为59% [6] - 云端部署通过API调用和订阅制服务企业和开发者，2025年上半年收入占比15.2%，收入占比快速提升 [6] - 公司日均token消耗量快速增长，2025年11月已达4.2万亿，付费API收入超过所有国产模型总和 [6] - 公司近期推出Zcode和Zread两款开发者工具，旨在增强开发者粘性，推动付费转化 [6] - 2025年上半年东南亚收入占比11.1%，显示出在海外数据主权敏感市场中的竞争力 [25] 历史财务表现 - 收入呈现高速增长：2022年0.57亿元，2023年1.25亿元（同比+116.93%），2024年3.12亿元（同比+150.86%），2022-2024年复合增长率超过130% [1][6] - 2025年上半年收入1.91亿元，同比增长325%，已超过2023年全年水平 [6] - 公司持续亏损：2023年归母净利润-7.88亿元，2024年-29.56亿元，2025年预计-45.63亿元 [1] - 毛利率整体相对稳定，2025年上半年为50%，其中本地化部署毛利率59.1%，云端部署毛利率为-0.4% [30] - 销售成本中，工资成本占比最高但逐步下降，计算服务费增速最快，成为第二大成本项 [34][35] 核心竞争力 - 全栈自研技术体系：研发人员占比74%，核心团队来自清华KEG实验室，学术积累深厚 [7] - 模型迭代迅速，性能领先：GLM-4.5在12项基准测试中全球第三、中国第一、开源榜首；GLM-4.7在编程场景表现突出，在Code Arena盲测平台位列开源第一、国产第一，超越GPT-5.2 [13] - 多模态能力覆盖文生图、文生视频、视觉理解等领域，CogView-4在开源评测中位居前列 [7] - 智能体领域领先：开发了全球首个可自主操作智能手机的智能体AutoGLM，开启Agent新范式 [7] - 国产算力深度适配，工程化迭代能力确保性能稳定领先 [7][57] 盈利预测与估值 - 收入预测：预计2025年7.85亿元（同比+151.27%），2026年15.50亿元（同比+97.45%），2027年32.19亿元（同比+107.68%） [1] - 收入结构将逐步从本地化为主转向云端主导，预计2027年云端收入占比将提升至56% [64] - 毛利率预计2025年触及50%，2026-2027年回升并稳定在51%左右，云端毛利率从低位逐步改善至40% [7] - 亏损幅度持续收窄，预计归母净利润2025年-45.63亿元，2026年-33.20亿元，2027年-25.12亿元 [1] - 本次IPO发行价116.20港元/股，净募资约43亿港元，募资后市值约511亿港元 [6] - 募集资金约70%用于增强通用大模型研发，约10%用于优化MaaS平台基础设施，约10%用于拓展生态合作和战略投资 [6] - 可比公司估值显示，智谱2026年PS为30倍，高于商汤科技和第四范式，但作为高成长股，PS有快速压缩空间 [7][67]

搜狐财经· 2025-12-30 12:12

港股IPO进程与募资详情 - 智谱于12月30日正式启动港股招股，招股期至2026年1月5日，计划于2026年1月8日以股票代码“2513”在香港联交所主板挂牌上市[2] - 公司拟全球发售3741.95万股H股，其中香港公开发售187.1万股，国际发售3554.85万股，每股发行价定为116.20港元[3] - 扣除发行费用后，预计募资规模约43亿港元，对应的IPO市值预计将超过511亿港元[3] - 基石投资者阵容亮眼，合计拟认购29.8亿港元，占本次发行规模近七成，包括JinYi Capital、高毅资产、泰康人寿、广发基金等11家机构[4] 公司估值与市场定位 - 智谱在私募市场的累计融资额已达83.44亿元，最新估值为243.77亿元[3] - 此次IPO市值预计超过511亿港元，意味着公司市值相较私募市场估值几乎实现翻倍[3] - 公司被市场视为“全球大模型第一股”的有力竞争者，其港股上市是在当前港股科技资产整体承压背景下，为高投入的大模型竞赛寻找可持续资金支持的关键举措[5][10] 财务表现与行业竞争格局 - 2024年上半年，公司收入为1.91亿元，期内亏损高达23.58亿元，AI研发成本高达15.95亿元[7] - 2024年AI大模型创业阵营“六小虎”出现分化，两家退出基座模型竞争，智谱与MiniMax、月之暗面、阶跃星辰四家仍留在大模型竞争牌桌[7] - 与专注to C的MiniMax不同，智谱主要专注企业级方案（to B），已落地金融服务、互联网、智能设备、医疗等行业[7] - 公司曾于今年4月在证监会北京监管局开启A股上市辅导备案，但截至12月12日未收到进一步意见，因此转向港股[9] 技术体系与模型迭代 - 公司技术体系以GLM为核心，覆盖文本、多模态与面向应用的模型服务[11] - GLM是基于Transformer的大语言模型建模范式，结合自回归生成与掩码预测，由智谱与清华大学相关研究团队提出并持续迭代[11] - 重要发展节点包括：2021年发布中国首个专有预训练大模型框架GLM并推出MaaS平台；2022年发布并开源千亿参数模型GLM-130B；2024年1月上线GLM-4[11] - 2025年7月开源GLM-4.5，登顶Hugging Face热门榜全球第一；同年9月发布并开源强化编码能力的GLM-4.6；12月推出最新旗舰模型GLM-4.7[12] 模型性能与基准测试 - GLM-4.7在多项基准测试中表现优异，与GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking等国际主流模型相比表现出色[14] - 核心编码能力显著提升：SWE-bench达73.8%（较GLM-4.6提升5.8个百分点），SWE-bench Multilingual达66.7%（提升12.9个百分点）[15] - 复杂推理能力提升：在HLE基准测试中取得42.8%的成绩，相比GLM-4.6提升12.4个百分点[15] - 工具调用与智能体能力增强：在BrowseComp网页浏览任务中展现出更强实际操作能力[15] - 公司还发布了多模态模型，包括CogView、GLM-4.5V、CogVideoX等，并在AI Agent方面以AutoGLM为核心模型，并于12月将其核心模型全面开源[16][17] 商业化路径与客户基础 - 公司主要提供从算力、API接口到MaaS的服务，支持本地和云端两种部署模式[11] - 从2021年开始布局MaaS商业模式，平台提供语言、多模态、智能体和代码四类核心模型能力，并提供模型微调、部署及智能体开发的一体化工具链[17] - 截至2025年6月30日，公司模型已为超过8000家机构客户提供支持；截至最后实际可行日期，已为约8000万台设备提供支持[17]

智谱定档大模型第一股，1月8日挂牌上市，IPO预募资43亿港元

量子位· 2025-12-30 11:57

IPO核心信息 - 智谱AI正式启动港股IPO招股，股票代码2513，预计于2026年1月8日在港交所主板挂牌上市[2][8] - 本次IPO全球发售37,419,500股H股，其中香港发售1,871,000股，国际发售35,548,500股[6][10] - 发售价定为每股116.20港元，预计募资总额约43亿港元，上市后市值预计超过511亿港元[3][9][11] - 招股期为2025年12月30日至2026年1月5日[9] 发行与投资者结构 - 本次IPO引入11家基石投资者，包括上海高毅、广发基金、泰康人寿等，合计拟认购约29.8亿港元，占发售股份比例接近七成[14] - 独家保荐人、整体协调人为OCICC FEATE，联席全球协调人包括国泰君安国际、招商证券国际等多家机构[6] - 募资用途方面，约70%的资金将用于研发，约10%将用于优化MaaS平台[16] 公司定位与技术实力 - 智谱AI被誉为“中国版OpenAI”，是中国最早开启大语言模型研发的公司，定位为国内AGI的引领者[7][17] - 公司最新旗舰模型GLM-4.7在权威评测Artificial Analysis Intelligence Index中以68分综合成绩位列开源模型与国产模型双料榜首[18] - 在Code Arena编码评估中，GLM-4.7位列开源第一、国产第一，超过GPT-5.2[19] - 公司已构建覆盖文本、图像、视频、语音的多模态模型矩阵，并更新了支持硬件设备接入的AutoGLM 2.0[20] 商业化与市场表现 - 智谱AI通过MaaS模式实现商业化，是国内少数通过此模式实现内部造血的初创公司[25] - 国内MaaS平台已汇聚超过270万企业与应用开发者，中国前十大互联网公司中已有9家接入其模型[26] - 全球范围内，GLM-4.5和GLM-4.6在OpenRouter上调用量长期位居全球前十，付费API收入超过所有国产模型之和，平台用户规模超过290万[26] - 公司GLM大模型已赋能全球12000家企业客户、超过8000万台终端用户设备及超过4500万名开发者[26] 财务业绩 - 公司营收连续三年翻倍增长，2022年至2024年收入分别为5740万元、1.245亿元和3.124亿元，年复合增长率达130%[27] - 2025年上半年收入进一步提升至1.91亿元，同比增长高达325%[27] - 毛利率表现亮眼，过去三年始终维持在50%以上，高于AI行业约40%的普遍水平，2022年至2024年毛利率分别为54.6%、64.6%和56.3%，2025年上半年为50%[31][32] 研发投入与资本背景 - 公司研发费用高昂且持续攀升，2022年至2024年及2025年上半年分别为8440万元、5.289亿元、21.954亿元和15.947亿元[35] - 最高峰时研发投入达到当期收入的八倍[36] - 公司拥有顶尖的清华技术班底，核心团队源自清华大学计算机系知识工程实验室，CEO张鹏、首席科学家唐杰等均为核心人物[41][46][53] - 成立以来已完成超过8轮融资，累计融资规模超过83亿元人民币，投资方包括美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等众多明星产业资本与一线机构[12][56] - IPO前最新投后估值已达243.8亿元人民币[57] 行业背景 - 根据弗若斯特沙利文数据，2024年中国大语言模型市场规模已达53亿元人民币，其中机构客户贡献约47亿元，占比近九成[59]

AAAI 2026｜教会视频扩散模型「理解科学现象」：从初始帧生成整个物理演化

机器之心· 2025-11-15 09:37

文章核心观点 - 研究团队提出了一种全新的视频扩散模型框架，旨在解决现有模型在生成科学现象视频时违背物理规律的问题 [2][3] - 该方法的核心创新在于让模型学习“潜在科学知识”，从而能从单帧初始图像推演出符合物理直觉的动态演化过程，实现了从“视觉生成”到“科学生成”的转变 [3][4][19] - 在流体模拟和真实台风观测数据上的实验表明，该方法在数值精度和物理一致性指标上均显著优于主流视频生成模型 [13][16][18] 方法介绍 - 方法框架分为三个核心步骤：潜在知识提取、伪语言提示生成、知识引导视频生成 [8] - 潜在知识提取模块结合了静态知识（通过Masked Autoencoder提取初始条件）和动态知识（通过光流预测网络捕捉运动趋势） [9] - 通过四元数网络将提取的视觉和科学知识特征投影为伪语言提示嵌入，以克服科学领域难以用文字精确提示的局限 [10] - 采用LoRA（Low-Rank Adaptation）方式将伪语言提示注入Stable Video Diffusion或CogVideoX等基础模型进行轻量微调，实现知识引导下的视频生成 [11] 模型结果 - 在四种典型流体模拟场景（瑞利-贝纳德对流、圆柱绕流、溃坝流、深水爆炸）和四个真实台风事件（202001、202009、202102、202204）上进行了评估 [13] - 定性结果显示，新方法生成的流体场和台风演化视频在结构连贯性和物理合理性（如旋转方向、能量分布）上远优于传统模型 [16] - 定量评估结合了传统指标（RMSE, SSIM）和六项物理一致性指标（如流函数误差、涡度判据误差），新模型在所有指标上均显著领先 [17][18][21] - 具体数据表明，在流体模拟任务中，Q-Criterion误差降低了一个数量级；在台风预测任务中，SSIM提升超过10%，RMSE降低20%以上 [18]

生成式AI

物理直觉

人工智能

Stable Video Diffusion

Stable Video Diffusion

CogVideoX

妙笔生维：线稿驱动的三维场景视频自由编辑

机器之心· 2025-08-19 10:43

三维场景视频编辑技术发展 - 移动摄影设备普及推动三维场景视频编辑需求增长用户可通过手机或相机快速获取多视角视频但高效自由编辑这些内容仍是关键挑战包括添加新物体、去除元素或替换已有部分等能力在VR、AR和短视频创作中应用前景广泛[2] - 现有经典方法局限在于仅支持预定义三维模型库限制用户个性化创意表达且难以处理光影融合和阴影生成等照片级真实感需求移除物体后的空缺区域填补也缺乏最优解决方案[3] Sketch3DVE技术创新 - 提出基于线稿的三维场景视频编辑方法用户通过简单线稿即可重塑视频内容支持个性化添加、移除或替换对象技术论文发表于SIGGRAPH 2025并入选Video Trailer[3][6] - 支持单张静态图片编辑用户可先指定虚拟相机路径生成动态视频再进行任意编辑突破传统静态图像处理限制[5] - 采用DUSt3R三维重建算法分析场景输出点云和相机参数通过深度图对齐和反投影技术实现三维几何一致性构建基于点云引导的视频生成模型融合编辑帧、多视角视频和原始视频信息[13][14] 行业技术对比 - 现有视频生成模型分为两类：直接输入相机参数控制视角或从单图像构建显式三维表示(如NeRF) 但均无法处理含大幅度相机运动的真实视频编辑[8] - 早期视频编辑方法基于Stable Diffusion逐帧处理新方法利用视频模型提取运动特征但主要擅长外观编辑几何结构层面效果较差难以处理大视角变化场景[9] - 线稿交互方式已广泛应用于内容生成 VIRES和SketchVideo等现有方法面向通用场景无法保持三维几何一致性 Sketch3DVE填补该技术空白[9][12] 应用效果展示 - 支持首帧线稿标记编辑区域生成添加/删除/替换物体的高质量结果新物体具有三维一致性[16] - 可处理含阴影和反射的复杂场景通过真实视频数据集训练生成合理编辑效果[17] - 支持颜色笔画指定外观生成自然真实的三维场景编辑也兼容图像补全方法直接编辑首帧[18][19] - 相比传统模型插入方法解决了个性化定制不足、渲染失真和物体去除难题降低专业软件使用门槛[20][22]

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

机器之心· 2025-05-19 12:03

文本生成视频技术发展 - 当前T2V技术正从视觉质量与模型规模扩展阶段转向物理一致性与现实合理性推理驱动阶段 [2] - 物理规律作为建模现实世界的基本知识体系，是高质量视频生成的关键约束 [2] - 主流模型如Sora、Pika、CogVideoX已能生成复杂逼真场景，但在物理规则遵守方面存在显著不足 [5] PhyT2V框架核心机制 - 通过LLM引导的链式推理与迭代自我修正机制优化文本提示，增强现有T2V模型的物理一致性 [3] - 采用三步流程：1)识别物理规则与对象 2)检测提示与视频语义不匹配 3)生成修正提示 [12][13][14] - 无需模型重训练或额外数据，支持3-4轮迭代即可显著提升效果，改进在最初两轮最明显 [14][23] 技术优势与实验表现 - 在CogVideoX-5B模型上实现PC指标2.2倍提升、SA指标2.3倍提升 [23] - 跨模型测试显示对CogVideoX-2B/OpenSora/VideoCrafter均有显著增强效果 [17][21][22] - 在固体力学、流体交互、光学现象等物理场景中表现优异，尤其擅长分布外场景 [18][20] 行业应用价值 - 框架可即插即用适配不同架构T2V模型，落地门槛极低 [3][18] - 突破传统数据驱动方法的泛化瓶颈，通过知识嵌入实现物理规则遵守 [7][10] - 为构建理解物理世界的T2V模型提供新路径，推动技术商业化进程 [26]

Physical Consistency

Text-to-Video (T2V) Generation

Chain-of-Thought (CoT)

Backtracking Reasoning

Artificial Intelligence

PhyT2V

Physical Consistency

Text-to-Video (T2V) Generation

Chain-of-Thought (CoT)

Backtracking Reasoning

Artificial Intelligence

PhyT2V

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

机器之心· 2025-05-07 15:37

AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段，扩散模型展现出接近现实的生成效果，但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型（如Wan 2.1、HunyuanVideo）在单张H100 GPU上生成5秒720p视频需耗时30分钟以上，其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen，通过挖掘注意力机制的空间与时间稀疏性，将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型，适用于T2V和I2V任务，代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers（DiTs）在建模长时空依赖方面优势显著，但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长，远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性（Spatial Head）和时间稀疏性（Temporal Head），分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略，通过在线稀疏模式优化方法（Online Profiling）选择最优稀疏模式，仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法，将帧为主存储改为token为主存储，优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块，QK-Norm平均加速比达7.4倍，RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟，Wan 2.1从30分钟降至20分钟，PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破，而非单纯扩大模型规模 [24]

AI Video Generation

Spatial-Temporal Sparsity

Artificial Intelligence

Spatial-Temporal Sparsity

Artificial Intelligence