通用人工智能（AGI） - 财报，业绩电话会，研报，新闻 - Reportify

通用人工智能（AGI）

搜索文档

奥特曼点名“AGI最后一块拼图”，记忆，才是硅谷2026新共识

36氪· 2026-01-09 15:49

行业竞争格局 - 2026年AI行业竞争焦点正从Scaling转向记忆能力[1] - 谷歌Gemini 3在2025年底表现强劲，在各大榜单超越ChatGPT[1] - OpenAI为夺回领先地位已拉响“红色警报”[1] - 2026年最新全球AI报告显示谷歌正在全面“超车”[1] - OpenAI首席执行官Sam Altman表示公司留有后手，并预计2026年获胜的仍将是OpenAI[3] 记忆能力的战略重要性 - Sam Altman押注记忆能力，认为这是AI未来一年内将取得进展的关键领域[5] - AI的记忆能力正成为继Scaling之后，解锁超级智能（ASI）的新行业共识[5] - 记忆能力可能被视为通往超级人工智能（ASI）的关键一步[9] - 记忆容量直接决定了智能高度，而AI记忆的潜力几乎是无限的[10] - 长期记忆能力目前仍是AI面临的关键技术瓶颈之一[12] - 提升AI记忆能力正成为AI巨头下一阶段竞争的核心方向[12] - 企业级AI智能体初创公司Andrew Pignanelli指出，记忆将成为2026年AI公司最关注的核心问题[19] - 记忆被公认为通向通用人工智能（AGI）的最后一步[22] 当前技术状态与挑战 - 当前的AI记忆功能被描述为非常粗糙、初级和原始[5][11] - 当前的AI记忆水平被认为与GPT-2时代没有太大不同[12] - 与知识、阅读写作、数学等能力相比，ChatGPT在记忆存储能力上仍然落后[13] - 行业距离真正完善的长期记忆系统仍然非常遥远[25] - 不断扩大的上下文窗口只是提高记忆能力的权宜之计，并非根本解决方案[25] - 即使是短期的情景记忆目前也尚未被真正解决[25] - 要达到AGI所需的细粒度记忆水平，必须在记忆架构本身上取得突破[25] 主要参与者的布局 - OpenAI已领先一步，为ChatGPT引入了记忆机制[22] - Claude是第一个跟进记忆功能的AI模型[23] - 谷歌研究在2025年已公布多篇关于持续学习的论文，该技术可能在2026年彻底落地到Gemini中[15] - 一旦ChatGPT在记忆上取得突破，几乎所有模型提供方都会为自己的应用增加并不断强化记忆能力[24] 记忆能力的潜在影响 - 当AI能够记住用户生活的每一个细节和未言明的微小偏好时，它将变得“非常强大”[5] - 随着AI保留用户的想法，用户将真正与它们建立关系，AI将被视为伙伴[12] - 解决记忆问题是让AI告别“机械感”，从“看似聪明的工具”转变为“像人一样存在”的关键[25] - 第一个真正的AGI将是一个极其强大的智能处理器加上一个同样强大的记忆系统[26] - 没有记忆，就不会有真正意义上的“数字自我”[26] - 超级智能（ASI）或许将诞生于强大的记忆系统与智能处理器结合的时刻[27]

通用人工智能（AGI）

超级人工智能（ASI）

通用人工智能（AGI）

超级人工智能（ASI）

MiniMax上市首日股价飙涨市值突破900亿港元

证券日报· 2026-01-09 15:39

公司上市与市场表现 - 公司于1月9日在港交所上市，上市后股价飙涨，总市值突破900亿港元 [1] - 公司以每股165港元的定价上限发行，全球发售约3358万股，假设绿鞋机制全额行使，募集资金总额约55.4亿港元 [1] - 市场认购反响极为热烈，公开发售部分获得1837倍超额认购，国际发售部分获37倍认购 [1] 公司业务与财务概况 - 公司是一家全球领先的通用人工智能（AGI）公司，自主研发了包括MiniMaxM2.1、Hailuo2.3、Speech2.6和Music2.0等在内的一系列全模态通用大模型 [1] - 截至2025年9月，公司已有超过200个国家及地区的逾2.12亿名个人用户 [1] - 2025年前九个月，公司营收同比增长超过170%，其中海外市场收入贡献占比超70% [1] 投资者结构与公司愿景 - 公司上市引入了14位国内外豪华基石投资者，投资者类型包括国际长线、头部科技、中资长线及产业战略等多个维度 [1] - 公司创始人兼CEO表示，一家人工智能公司的真正价值是提供源源不断的先进智能并为人所用，公司将为智能的进步持续奋斗，为社会和经济发展做出更大贡献 [2]

通用人工智能（AGI）

通用人工智能（AGI）

AI大模型“两小龙”登陆港股，亏损率仍在高位

搜狐财经· 2026-01-09 15:10

行业里程碑事件 - 全球AGI产业迎来里程碑事件，智谱AI与MiniMax两大A大模型企业相继登陆资本市场，其中智谱AI成为“全球大模型第一股” [2][3] - 智谱AI的上市为长期缺乏公开市场估值参照的大模型行业提供了可参照的估值锚点，填补了行业上市标的空白，标志着国产大模型从技术发展进入资本验证的新阶段 [3] 智谱AI (Zhipu AI) 概况 - 智谱AI于2025年1月8日在港交所主板上市，上市首日收盘股价上涨13.17%至131.5港元/股，总市值达578.9亿港元 [3] - 公司成立于2019年6月，是AI大模型领域“六小龙”之一，技术基因可追溯至1996年成立的清华大学计算机系知识工程实验室 [3] - IPO前公司累计获得超25亿元人民币融资，投资方包括社保基金中关村自主创新基金、美团、蚂蚁、阿里、腾讯、小米、红杉中国、高瓴等多家机构 [4] - 截至2025年6月30日，公司模型已为超过8000家机构客户和约8000万台设备提供支持 [5] - 公司业务主要来自国内市场，2025年上半年海外收入占比仅约5.1% [5] - 公司采用稠密大模型（Dense Model）的国产化全栈改造技术路线，侧重国内To B市场 [5][6] - 公司面临阿里巴巴、字节、百度等互联网巨头以及月之暗面、百川智能等其他独立大模型厂商的竞争 [5] - 公司处于亏损状态，净亏损从2022年的1.44亿元扩大至2024年的29.58亿元，2025年上半年亏损额已达23.58亿元，亏损率达1232% [7] MiniMax (稀宇科技) 概况 - MiniMax于2025年1月9日在港交所主板上市，上市首日股价大涨超70%，市值一度突破900亿港元 [6] - 公司成立于2021年，由前商汤科技副总裁闫俊杰创办，自创立起便押注混合专家（MoE）架构 [5][6] - 公司确立了全模态并行的技术路线，自主研发了包括MiniMax M2.1、Hailuo 2.3等在内的全模态通用大模型，是“全球唯四全模态进入第一梯队”的大模型公司 [6] - 公司核心收入模式为C端订阅和API收费，主攻全球市场，打法更偏向互联网 [5][6] - 截至2025年9月，公司已有超过200个国家及地区的逾2.12亿名个人用户，MAU约2762万，付费用户数约177万 [6] - 公司2025年前9个月营收同比增长超过170%，海外市场收入贡献占比超70% [6] - 截至2025年9月30日，公司总营收为5343.7万美元（约合人民币3.74亿元），而2024年同期收入为1945.5万美元 [7] - 公司处于亏损状态，截至2025年9月30日亏损5.12亿美元（约合人民币35.83亿元），亏损率达958.2% [7] 市场竞争与行业动态 - 国内大模型市场竞争激烈，智谱AI面临互联网巨头及其他独立厂商的竞争 [5] - 竞争对手月之暗面于2024年12月31日完成5亿美元C轮融资，其Kimi全球付费用户数月增速达170%，海外大模型API收入增长4倍 [5] - MiniMax的M2模型以100亿激活参数承载2300亿总参数量，通过技术将单次推理成本压至Claude 4.5的8% [5] - 专家观点认为，智谱AI侧重的国内To B市场与MiniMax主攻的全球偏订阅制市场均具备巨大价值，关键在于业务逻辑的自洽 [6] 行业影响与展望 - 智谱AI与MiniMax的成功上市激活了国产大模型企业赛道，向市场传递出国产大模型领域的投资价值 [3] - MiniMax的成功上市也折射出上海人工智能产业生态的整体成熟与赋能效能 [7] - 随着两家公司成功IPO，有观点认为国内AI产业机遇期来临 [8]

通用人工智能（AGI）

通用人工智能（AGI）

全球AGI产业迎来里程碑，智谱AI与MiniMax相继登陆资本市场

经济观察网· 2026-01-09 15:08

行业里程碑事件 - 智谱AI于1月8日在香港交易所挂牌交易，成为全球大模型领域第一家上市公司 [2] - MiniMax紧随其后于1月9日上市，目前全球资本市场尚无其他同类大模型公司上市 [2] - 智谱AI的上市为行业提供了重要的估值参考，填补了市场空白，并激活了国内大模型企业的活力 [2] 智谱AI (Zhipu AI) 概况 - 公司成立于2019年，是AI大模型领域“六小龙”之一 [2] - 技术基础可追溯至1996年成立的清华大学计算机系知识工程实验室 [3] - IPO前累计获得超过25亿元人民币的融资，投资方包括清华系、国资、产业资本和市场化创投机构 [3] - 上市首日股价收盘于131.5港元/股，较发行价上涨13.17%，市值达到578.9亿港元 [2] - 截至2025年6月30日，已为超过8000家机构和约8000万台设备提供服务 [3] - 公司侧重于国内市场的To B业务 [4] MiniMax 概况 - 公司成立于2021年，由前商汤科技副总裁闫俊杰创办 [5] - 专注于全模态并行技术路线和混合专家（MoE）架构 [3][5] - 自主研发了包括MiniMax M2.1、Hailuo 2.3、Speech 2.6和Music 2.0在内的全模态通用大模型 [5] - 其M2模型通过技术优化，将单次推理成本降至Claude 4.5的8% [3] - 上市首日股价大涨超过70%，市值一度突破900亿港元，成为全球第四家进入第一梯队的大模型公司 [5] - 核心收入模式为C端订阅和API收费，主攻全球订阅制市场，海外市场收入贡献占比超过70% [4][5] 财务与运营数据 - **智谱AI财务数据**：净亏损从2022年的1.44亿元人民币扩大至2024年的29.58亿元人民币，2025年上半年亏损额已达23.58亿元人民币，亏损率达1232% [6] - **MiniMax财务数据**：2025年前9个月总营收为5343.7万美元，2024年同期为1945.5万美元，同比增长超过170% [5]；同期亏损5.12亿美元，亏损率达958.2% [6] - **MiniMax用户数据**：截至2025年9月，在全球超过200个国家和地区拥有超过2.12亿个人用户，月活跃用户约2762万，付费用户数约177万 [5] 市场竞争格局 - 智谱AI在国内市场面临阿里巴巴、字节跳动、百度等科技巨头，以及月之暗面、百川智能等独立大模型厂商的竞争 [3] - 月之暗面在2025年12月31日完成了5亿美元的C轮融资，并宣布全球付费用户数月增速达到170%，海外大模型API收入增长了四倍 [3] 行业影响与展望 - 智谱AI和MiniMax的成功IPO，标志着全球通用人工智能（AGI）领域迎来重要发展节点 [2] - 华西证券认为，随着两家公司成功IPO，国内AI产业将迎来新的发展机遇 [6] - 专家表示，To B和全球订阅制两个市场都具有巨大价值，关键在于业务逻辑的自洽性 [4]

智谱(HK:02513)

通用人工智能（AGI）

大模型技术

通用人工智能（AGI）

大模型技术

“全球大模型第一股”来了！南通宝月湖科创母基金斩获首单IPO！

搜狐财经· 2026-01-09 14:37

公司上市与募资 - 北京智谱华章科技股份有限公司于1月8日在港交所正式挂牌上市，股票代码为2513.HK [1] - 本次上市募集的资金中，70%将专项投入通用AI大模型研发 [3] 公司业务与市场地位 - 公司是中国独立通用大模型领域的领军企业，依托清华大学团队十余年知识智能技术积淀，团队成立于2019年 [3] - 公司深耕认知智能大模型研发，构建数据与知识双轮驱动的下一代人工智能系统 [3] - 公司推出的核心产品包括GLM系列基座大模型及ChatGLM、CodeGeeX等 [3] - 公司已服务全球超1.2万家企业客户，稳步迈向行业领先的认知智能大模型技术服务商行列 [3] 投资方背景与战略 - 崇川产发集团宝月湖科创母基金是智谱华章的合作子基金战略布局方 [1] - 宝月湖科创母基金成立运作仅两年，此次IPO是其成功收获的首单IPO [1] - 母基金自设立之初便聚焦通用大模型、高端算力、智慧场景应用等核心领域 [5] - 母基金与多家深耕AI赛道的专业基金管理人建立深度合作，为优质项目的挖掘、培育与赋能奠定基础 [5] 区域产业政策与发展 - 崇川区立足产业发展前瞻视野，提早布局人工智能赛道 [5] - 区域通过完善的政策支持体系，持续优化AI产业发展生态，稳步构建区域AI产业发展格局 [5] - 宝月湖科创母基金紧密契合区域产业政策导向 [5] - 未来，该母基金将持续深化产业协同，以精准投资赋能科技创新，持续加码优质标的，为崇川区AI产业高质量发展注入更强动能 [5]

通用人工智能（AGI）

Artificial Intelligence

GLM系列基座大模型

通用人工智能（AGI）

Artificial Intelligence

GLM系列基座大模型

盘点500亿市值“大模型第一股”商业版图

搜狐财经· 2026-01-09 13:40

公司上市与市场地位 - 北京智谱华章科技股份有限公司于2025年1月8日在香港联合交易所挂牌上市，成为全球首家以通用人工智能（AGI）基座模型为核心业务的上市公司 [1] - 公司上市首日开盘价为120港元每股，上市后市值达到528.28亿港元 [1] 公司基本信息 - 公司成立于2019年6月，法定代表人为刘德兵，注册资本约为4028万人民币 [1] - 公司经营范围包括人工智能基础软件开发、人工智能应用软件开发、数据处理和存储支持服务、信息技术咨询服务、人工智能理论与算法软件开发及大数据服务等 [1] - 公司股东包括唐杰、李涓子、上海飞玡科技有限公司等 [1] 业务与投资布局 - 公司直接对外投资了26家企业，其中24家为存续状态 [1] - 主要投资子公司包括天津智谱华章科技有限公司（持股100%，认缴出资额95000万元人民币）、上海智谱寰宇科技有限公司（持股100%，认缴出资额50000万元人民币）、北京豆神智创科技有限公司（持股25%，认缴出资额12500万元人民币）、浙江智谱新疆科技有限公司（持股100%，认缴出资额45000万元人民币）及北京智谱兴疆科技有限公司（持股100%，认缴出资额30000万元人民币） [1][2] - 投资子公司业务覆盖科学研究和技术服务业、信息传输、软件和信息技术服务业以及金融业（如北京星连鼎森股权投资基金合伙企业） [2]

通用人工智能（AGI）

科学研究和技术服务业

软件和信息技术服务业

通用人工智能（AGI）

科学研究和技术服务业

软件和信息技术服务业

MiniMax接力：“红高腾阿爱”联手，押注大模型另一种活法

21世纪经济报道· 2026-01-09 13:05

文章核心观点 - MiniMax作为成立仅四年的AI大模型公司，于1月9日在港交所成功上市，成为近期港股市场最火爆的IPO之一，其上市表现强劲，市值达719亿港元，并展现出强大的商业化落地能力与全球化潜力 [1][3] - 公司的成功得益于早期获得顶级VC/PE、产业资本及地方国资的耐心资本支持，投资方看重其创始团队对AGI的坚定信仰、多模态同步推进的技术蓝图以及“模应一体”的商业闭环战略 [3][4][10][12] - 在激烈的大模型行业竞争中，公司通过差异化战略构筑壁垒，包括超前布局MoE架构优化算力效率、坚持模型与产品并重实现B+C双轮驱动，以及组织上的极致年轻与高效，从而实现了高速的营收增长和显著的全球化收入占比 [9][13][14] 上市表现与市场反响 - MiniMax于1月9日在港交所IPO，股票代码00100.H，上市首日开盘价235.4港元，较发行价165港元大幅上涨42.67%，以开盘价计算公司市值达719亿港元 [1] - 假设绿鞋全额行使，此次全球募集资金总额约55.4亿港元，公开发售部分获1837倍超额认购，国际发售部分获37倍认购，吸引了全球多地区的长线机构和主权基金投资，成为港股近年来最火爆的IPO交易之一 [3] - 此前一日，智谱港股上市成为全球大模型第一股，上市首日涨幅13.17%，总市值约579亿港元，MiniMax与智谱的接连上市标志着大模型赛道头部公司进入资本市场关键阶段 [3][6] 早期投资阵容与投资逻辑 - 公司天使投资方包括云启资本、高瓴创投、IDG资本和产业方米哈游，投资方在GPT引爆AGI浪潮前即认可创始人闫俊杰提出的基础模型路径和“文本、声音、视频”三模态并进的技术蓝图 [4] - 米哈游作为最早投资的产业方，上市前持股比例为7.34%，其创始人刘伟与闫俊杰相识已久，促成了天使投资 [4] - 明势资本是公司最笃定的投资方，连续参与六轮融资，创下参与历次融资轮次最多的机构纪录，其在ChatGPT发布前八个月（2022年3月）即决定投资，并因累计投资额超限而专门与LP沟通取得上限豁免 [8] - 红杉中国是公司第三大财务投资人，上市前持股3.81%，其从2023年7月A+轮开始参与并多轮加持，是红杉中国在大模型领域投资金额最大的项目之一，早期即看重创始人关于“AI服务普通用户”和“大模型是通用智能必由之路”的超前非共识判断 [10][11] - 高瓴创投同时投资了智谱和MiniMax，IDG资本也同时领投了竞争对手月之暗面（Moonshot AI）的C轮5亿美元融资，体现了顶级基金在行业不确定性中通过多押注以留在牌桌上的典型打法 [6][7] 公司战略与技术路径 - 公司自成立之初就确立了“文本、声音、视频”三模态并进的技术蓝图，并坚持多模态同步推进策略，开发风险较大但构成了差异化壁垒 [4][9] - 2023年下半年，公司将大量资源投入MoE（混合专家）架构预训练研发，经历两次失败后第三次成功，推出的abab6.5系列模型开创了用MoE架构进行大规模商业化部署的先河，以美国头部模型1%的成本实现了仅5%的性能差距 [9] - 公司战略核心是“模应一体”，即在底层模型保持第一梯队技术性能的同时，在应用端形成标准化产品矩阵，实现技术与商业的闭环 [12] - 公司具备“生而全球”的产品与组织视角，超70%的收入来自海外，成为国产AI模型全球化的标杆 [11][13] 商业化表现与财务数据 - 2025年前三季度，公司实现收入5343.7万美元，前九个月营收同比增长超170% [13] - AI原生产品收入占总营收71.1%，毛利率达69.4% [9] - C端收入占比超71%，B端收入同比增长160%且毛利达69.4% [13] - C端通过海螺AI、Talkie等产品触达2.12亿全球用户，付费用户两年暴涨15倍，其中Talkie产品日活接近两百万 [13] - B端开放平台为13万企业客户提供API服务，日均处理超万亿Token请求 [13] 组织与团队特点 - 公司全员385人，平均年龄29岁（95后），其中研发人员占比高达73.8% [14] - 董事会成员多为30岁左右的年轻人，更能把握C端场景用户需求 [14] - 组织管理极致扁平化，在CEO之下设不超过三层职级，实现了管理效率的指数级缩放 [14] - 公司通过“人才密度”而非“人力堆砌”实现“以一抵十”的高产出效率 [14]

通用人工智能（AGI）

Artificial Intelligence

abab6.5系列模型

通用人工智能（AGI）

Artificial Intelligence

abab6.5系列模型

浦发银行携手AGI领军者MiniMax，共赴人工智能新时代

金融界资讯· 2026-01-09 12:30

MiniMax公司概况与上市表现 - 公司是一家来自中国的通用人工智能公司，于1月9日以股票代码00100.HK正式登陆港交所 [1] - 公司刷新全球纪录，成为从成立到上市用时最快的AGI公司，仅用4年时间 [1] - 上市开盘10分钟后，公司股价即上涨50% [1] MiniMax的技术实力与市场地位 - 公司致力于研发具备国际竞争力的通用模型，是一家“生而全球化”的AI公司 [1] - 公司坚持文本、视频、语音多模态同步自主研发，已成为全模态全球领先公司 [1][2] - 公司的开源文本模型M2位列全球前五，在开源模型中排名第一，视频模型Hailuo-02排名全球第二 [2] - 公司拥有覆盖B端与C端的AI原生产品矩阵，包括海螺AI、Talkie、星野、MiniMax Agent、开放平台等 [2] MiniMax的运营效率与财务表现 - 截至2025年9月，公司累计投入约5亿美元，而OpenAI的累计投入在400亿至550亿美元之间 [2] - 公司仅用约相当于OpenAI 1%的资金投入，就实现了在多模态领域的全球领先地位 [1][2] - 公司超过70%的收入来自海外市场，用户覆盖超过200个国家和地区 [2] - 公司付费用户数持续暴涨，验证了技术驱动而非流量补贴的健康增长模式 [2] 浦发银行的科技金融战略 - 浦发银行将科技金融作为全行战略“主赛道”深入推进 [1] - 银行创设了“商行+投行+生态”的综合服务模式 [1] - 银行致力于打造“股、债、贷、保、租、孵、撮、联”一体化服务体系 [1] 浦发银行与MiniMax的合作模式 - 双方合作具有天然的区位优势与战略契合度，总部均位于上海 [1] - 合作旨在使银行从单纯的“资金提供者”转型为“产业赋能者”，以更敏锐地捕捉AI产业的金融需求 [3] - 银行为公司提供了“陪伴式”金融解决方案，突破传统信贷思维 [4] - 具体措施包括：进行深度技术尽调，将评估重点转向技术路线领先性与商业模式自洽 [4]；提供定制化、长期稳定的信贷支持以灌溉研发 [4]；提供全生命周期服务，构建成长生态 [4] 行业意义与展望 - MiniMax的成功上市印证了“技术突破-产品创新-全球市场-资本赋能”这一良性循环的巨大影响力 [5] - 浦发银行旨在通过将金融资源精准对接科技创新需求，为培育新质生产力、实现高水平科技自立自强注入金融动能 [5]

浦发银行(SH:600000)

通用人工智能（AGI）

通用人工智能（AGI）

历史上IPO规模最大的AI大模型公司！MiniMax闫俊杰：让先进智能“为人所用”

财经网· 2026-01-09 12:20

上市表现与市场反响 - 公司于1月9日在港交所上市，股票代码0100.HK，早盘股价一度上涨超过80%，市值突破900亿港元 [1] - 本次全球发售约3,358万股，发行价为每股165港元，为定价上限，假设绿鞋全额行使，募集资金总额约55.4亿港元 [1] - 市场认购极为热烈，公开发售部分获得1,837倍超额认购，国际发售部分获得37倍超额认购 [1] - 引入了包括Aspex、Eastspring、Mirae Asset、ADIA、阿里巴巴、易方达等在内的14位国内外基石投资者，涵盖国际长线、头部科技、中资长线及产业战略等多种类型，形成强有力的价值背书 [1] 公司业务与市场地位 - 公司是一家全球领先的通用人工智能公司，自主研发了包括MiniMax M2.1、Hailuo 2.3、Speech 2.6和Music 2.0等在内的一系列全模态通用大模型 [1] - 公司被认为是“全球唯四全模态进入第一梯队”的大模型公司 [1] - 截至2025年9月，公司产品已覆盖超过200个国家及地区，拥有超过2.12亿名个人用户 [2] - 公司展现出卓越的全球市场开拓能力，2025年前九个月，海外市场收入贡献占比超过70% [2] 财务表现与增长 - 2025年前九个月，公司营收同比增长超过170% [2] 公司愿景与团队 - 公司创始人兼CEO认为，一家人工智能公司的真正价值在于提供源源不断的先进智能，并为人所用，这依赖于技术的持续创新以及过程的普惠性和开放性 [2][3] - 公司的使命是“Intelligence with Everyone” [3] - 公司团队在四年内从零开始构建了全球领先的全模态能力，并服务了全球2亿多用户 [3] - 公司期待未来四年AI行业能保持与过去四年同样快的发展速度，并努力在其中做出贡献 [3] - 公司为现有团队感到骄傲，并热切期待全球更多优秀人才加入 [3]

通用人工智能（AGI）

Artificial Intelligence

通用人工智能（AGI）

Artificial Intelligence

让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

量子位· 2026-01-09 12:09

文章核心观点 - 视频生成领域的技术瓶颈正从追求画质转向构建具备长期记忆和强交互能力的“世界模型”，上海AI Lab联合多家机构开源的Yume项目通过其核心的时空信道联合建模（TSCM）架构，为解决长视频生成中的记忆与计算矛盾提供了工程化落地的可行路径，并展示了显著的性能提升 [1][2][3] Yume项目概述与定位 - Yume是一个持续迭代、完全开源的世界模型项目，旨在理解物理规律、具备长期记忆并支持实时交互，被视为通往通用人工智能（AGI）的关键路径 [3][4] - 项目已发布Yume1.0和Yume1.5版本，其中Yume1.0是第一个完全开源（包括数据、测试集、代码和权重）的面向真实世界的世界模型 [3] 核心技术创新：时空信道联合建模（TSCM） - TSCM是Yume1.5的核心架构创新，旨在解决长视频生成中的上下文爆炸和计算瓶颈问题，实现了近似恒定计算成本的全局记忆访问 [1][4][11] - 该框架通过统一的上下文压缩与线性注意力机制，避免了存储所有历史Token导致的GPU显存耗尽，以及生成时间随历史长度线性增加的问题 [5][15] - TSCM包含两个并行的压缩流：时空压缩与通道压缩，并通过特征融合层将两者提取的特征进行融合 [16][20] - **时空压缩**：通过对历史帧进行自适应时空下采样来减少Token数量，策略是近期的记忆清晰，远期的记忆模糊，例如对最近1-2帧采用(1,2,2)采样，对更早的帧采用(1,8,8)采样 [17][18] - **通道压缩**：将历史帧的通道维度从标准维度（如1024或768）强制压缩至96，配合线性注意力机制，使得计算量几乎恒定，不随历史信息增长而显著增加 [19][23] 数据策略 - 训练数据包括开源的Sekai数据集，该数据集覆盖全球750个城市，累计时长达5000小时的高质量第一人称（POV）视频数据 [8] - Yume1.0引入了量化相机轨迹方法，能将现实世界的运动转换为离散的键盘按键 [9] - Yume1.5额外引入了高质量的文本到视频（T2V）合成数据集，并为了生成特定“事件”，构建了专门的事件数据集 [10] - 事件数据集的构建通过两种方式：1) 人工构造，招募志愿者编写涵盖日常、科幻、奇幻、天气等四大类的事件描述来合成数据；2) 利用InternVL3-78B大模型对Sekai数据进行重标注，将背景描述改写为关注动作和事件的提示词 [14] 推理与训练加速 - 引入了类似于Self-Forcing的训练策略，在微调阶段让模型自己生成上一帧作为条件来预测当前帧，结合TSCM替换滑动窗口的kv cache，使得仅用64帧长度的训练即可外推到近半分钟的视频生成，训练高效 [24] - Yume1.0引入了OSV（一种对抗蒸馏方法）以加速扩散模型的采样 [24] - 通过提示词解耦与缓存策略优化推理效率：将提示词解耦为**事件描述**（仅在初始化或新指令时编码一次）和**动作描述**（词汇量有限固定，预先计算并缓存其T5Embedding），显著降低了文本编码器在实时推理中的计算占比 [25][27] - 定义了一套详细的键盘动作词汇表来控制视角移动，例如W/A/S/D控制前后左右移动，箭头和字母组合控制视角转动 [26] 性能表现 - **生成速度**：Yume1.5的生成时间从Yume1.0的572秒大幅缩短至8秒 [29] - **指令跟随（IF）能力**：Yume1.5的IF得分高达0.836，证明了其控制方法的有效性 [29] - **综合评分**：在多项指标上表现优异，例如场景一致性（SC）得分0.932，背景一致性（BC）得分0.985，图像质量（IQ）得分0.728 [29] - **消融研究验证**：移除TSCM改用简单的空间压缩后，指令跟随能力从0.836降至0.767，且TSCM使得自回归推理时间在8个block后保持稳定，不随上下文增加而增长 [30][32] 开源与易用性 - 项目全面开源，提供了论文、代码、主页和数据链接 [40] - 为了方便使用，Github主页提供了Windows下的一键启动方案来运行Web Demo，例如通过运行`run_oneclick_debug.bat`脚本，该程序已在RTX4090 Laptop GPU（16GB显存）上测试通过 [34][35] 当前局限与未来展望 - **物理逻辑缺失**：模型缺乏物理引擎支撑，偶发因果谬误（如倒行）及长周期细节漂移，TSCM仅起到缓解作用 [36] - **模型规模权衡**：当前使用5B参数模型以妥协实时性，为突破性能瓶颈（如迈向30B+规模），未来计划采用混合专家（MoE）架构以兼顾高性能与低延迟 [37] - 项目开源期望加速世界模型的研究，随着技术迭代，生成内容与真实内容的界限将愈发模糊 [38]

通用人工智能（AGI）

Artificial Intelligence

通用人工智能（AGI）

Artificial Intelligence