Workflow
模型记忆
icon
搜索文档
中金::人工智能十年展望):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金· 2026-02-24 22:20
报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出,大模型的演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极,AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级,并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结 模型记忆重构下的存储范式与软硬件红利 * 报告提出,模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级,并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”,其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索,硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石,对应“温数据”,软件技术包括GraphRAG与MemoryOS等,硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化,报告归纳了内隐参数、外显语义、参数化查表三条实现路径,将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统:训练、推理、Agent * 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导,核心瓶颈在于KV Cache对HBM容量的挤占,若启用检索增强或Agent能力,还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越,中期记忆跃升为系统智能的连续性载体,其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆:即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”,其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战:1)KV Cache显存占用随上下文长度线性增长,传统内存管理技术导致显存浪费率高达**60-80%** [31][32];2)预填充与解码阶段存在算力权衡,混合部署会导致资源争抢 [39];3)Agent场景下缺乏高效记忆管理,导致重复计算和资源浪费 [39] * 软件解法包括:1)单卡显存虚拟化,如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43];2)PD分离优化集群算力调度;3)模型架构前沿探索,如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类:1)HBM用以承接KV Cache膨胀;2)片上SRAM负责处理瞬时状态;3)NVLink等互连技术编织分散的显存资源池 [50] 中期记忆:AI Agent的基石 * 中期记忆承载Agent的情景连续性,旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战:1)存储环节,SSD随机读取延迟是DRAM的**1000倍** [63];2)检索环节,易导致“上下文污染” [63];3)更新和遗忘环节,低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势:1)向量RAG是基础方案;2)分层RAG通过构建递归摘要树提升连贯性;3)GraphRAG引入知识图谱,在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类:1)大容量DRAM常驻热点索引与图谱拓扑;2)企业级NVMe SSD存储海量原始切片与高精度索引;3)CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆:知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制,实现知识的持续积累,模型训练与推理的界限正在模糊 [5][86] * 路线一(内隐参数):通过微调或训练将知识固化进模型参数,如Google Titans的测试时训练机制 [91][95] * 路线二(外显语义):将多次会话沉淀的结构化信息存储为可查阅的“百科全书”,催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三(参数化查表):如DeepSeek Engram架构,将静态知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异:内隐参数路径要求推理芯片具备训练能力并抬升HBM需求;外显语义路径是重存储架构,催生企业级SSD、CXL内存池及高性能CPU需求;参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]
中金 | AI十年展望(二十七):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金点睛· 2026-02-13 07:36
文章核心观点 - 大模型演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式面临物理极限,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极 [1] - 模型记忆可解构为短期、中期、长期三个垂直层级,各层级对应不同的软件技术与底层存储硬件需求,构成了分析AI时代基础设施投资的结构化范式 [4][8] - 短期记忆是单次推理的“当前视野”,核心矛盾在于KV Cache对显存容量与带宽的双重挤占,软件优化与硬件升级是突破“显存墙”与“延迟墙”的关键 [4][17] - 中期记忆保障跨会话的情景连续性,是Agent的基石,其动态管理系统影响Agent能力上限,也是构建私有数据壁垒的核心变量 [4][15] - 长期记忆支撑模型从预训练走向“持续进化”,旨在打破预训练截止时间的限制,其实现路径将催生新的软硬件需求,并模糊训练与推理的界限 [4][5][45] 模型记忆分层框架总览 - 公司提出原创的模型记忆分层框架,从功能维度将记忆解构为短期、中期、长期三个垂直层级 [8] - 短期记忆构成大模型单次推理的“当前视野”,是高频读写、对延迟极度敏感的“热数据” [4][17] - 中期记忆保障跨会话的情景连续性,是Agent的基石,承载从被动检索向主动治理的范式转移 [4][15] - 长期记忆支撑模型从预训练走向“持续进化”,旨在打破预训练截止时间的限制,实现知识的持续积累 [5][45] - 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [12] 不同AI场景对应的记忆分层系统 - 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [13] - 推理阶段目前由短期记忆主导,其核心瓶颈在于KV Cache对HBM容量的挤占,推理成本对显存利用率较为敏感 [14] - Agent的落地则需要中期记忆作为支撑,中期记忆的活跃度直接决定了Agent在复杂生产环境中的交付上限,是未来AI应用层突破的核心变量 [15] 短期记忆:即时交互下的吞吐与延迟博弈 - 短期记忆的物理载体是显存中的KV Cache,其显存占用随上下文长度呈线性增长,传统内存管理技术会导致显存浪费率高达60-80% [17][19] - 面临物理资源、计算模式以及Agent场景的三重博弈:1) 容量与带宽的双重“显存墙”;2) 预填充(计算密集型)与解码(存储密集型)阶段的算力权衡;3) Agent场景下因缺乏记忆管理导致的重复计算 [19][20] - 软件解法包括单卡显存虚拟化与集群算力调度优化,例如PagedAttention机制可将显存有效利用率提升到96%以上,PD分离调度可优化集群资源 [22] - 模型架构前沿探索包括线性注意力机制(如RetNet、Mamba)和无限注意力(Infini-attention),后者是支撑Gemini 1.5 Pro百万上下文窗口的关键,能实现114倍的记忆状态压缩 [25][26] - 硬件需求对应三类:1) HBM用以承接KV Cache膨胀;2) 片上SRAM负责处理瞬时状态,提供更低延迟;3) NVLink等互连技术编织分散的显存资源池 [27] 中期记忆:AI Agent的基石 - 中期记忆旨在解决短期记忆的物理瓶颈和长期记忆的调用时延矛盾,是一个依赖“存储-检索-更新-遗忘”动态生命周期管理的复杂系统 [29][30] - 面临三大挑战:1) 存储环节,向量检索产生大量随机I/O延迟,DRAM与高性能NVMe SSD的随机访问延迟差距达1000倍;2) 检索环节,语义相似但逻辑冲突导致“上下文污染”;3) 更新和遗忘环节,低价值信息挤占上下文窗口 [30][31] - 软件解法中,RAG技术栈正呈现结构化趋势:向量RAG解决“找得到”;分层RAG(如RAPTOR)通过递归摘要树解决“看不全”;GraphRAG引入知识图谱解决“想得透”,在处理全局性查询时能实现9-43倍的上下文Token压缩 [32][34][35] - Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中相比基线准确率提升43.7%,同时Token节省35.24% [37][40][42] - 中期记忆的工程化落地将拉动向量数据库与图数据库的增量需求,并有望沉淀为企业私有数据资产 [42] - 硬件需求主要对应三类:1) 大容量DRAM用于常驻热点索引与图谱拓扑;2) 企业级NVMe SSD承载海量原始内容切片与部分索引,需满足高IOPS和低延迟;3) 高性能CPU负责向量距离计算与图遍历等逻辑密集型任务 [43][44] 长期记忆:知识固化的三条路径与存储新蓝海 - 长期记忆让AI打破预训练截止时间的限制,实现知识的积累与实时更新,模型训练与推理的界限正在逐渐模糊 [45] - 路线一:内隐参数——通过微调或训练将知识固化进模型参数,更新慢但稳定,写入成本较高 [46] - 内隐参数的软件解法包括测试时训练机制(如Google Titans)和存量改造(如LoRA),前者通过实时计算梯度更新记忆模块权重 [47][48] - 内隐参数的硬件需求推动推理芯片“训练化”重构:计算需回归FP16或BF16高精度;HBM不仅存储权重,还需存储梯度信息 [50][51] - 路线二:外显语义——将多次会话沉淀的结构化信息作为可查阅的“百科全书”,核心诉求是可解释、可编辑、可审计 [51] - 外显语义的软件栈催生多类数据库需求:键值型数据库用于状态与偏好管理;文档型数据库用于语义对象存储;关系型数据库用于权限与规则管控;向量数据库或索引用于相似性检索 [51][52] - 外显语义的硬件需求本质是PB级海量温数据与高并发随机读取,催生企业级NVMe SSD、CXL内存池化以及高性能CPU的需求 [54] - 路线三:Engram启发下的参数化查表——由DeepSeek提出,将静态、模板化知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,实现O(1)时间复杂度的静态查表 [56] - Engram的产业意义在于改变记忆对硬件的依赖,允许将大规模嵌入表从有限且昂贵的HBM转移到成本更低、容量更大的DRAM,并通过CXL、PCIe 5.0等高速互连通道访问 [58]
中金:人工智能十年展望:2026关键趋势之模型技术篇
中金· 2026-02-11 13:58
报告投资评级 - 报告未明确给出具体的行业或公司投资评级 [2] 报告核心观点 - 回顾2025年,全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,但通用能力在稳定性、幻觉率等方面仍有短板 [2] - 展望2026年,大模型将在强化学习、模型记忆、上下文工程等方面取得更多突破,从短文本生成向长思维链任务、从文本交互向原生多模态演进,向实现AGI的长期目标更进一步 [2] 技术视角:模型架构优化与提升智能上限 模型能力:聚焦推理、编程、Agentic与多模态 - **推理能力**:2025年模型推理能力上限和思维链利用效率均得到优化,强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思,并与工具调用结合形成“交错思维链” [17][18]。在MMLU-Pro测试中,头部模型如Gemini-3-Pro-Preview得分为90.5%,Claude-Opus-4.1为87.9%,GPT-5为87.1% [19] - **编程能力**:AI编程已进化为具备工程闭环能力的开发者代理,从代码补全到全栈自主构建。2025年约84%的全球开发者使用AI编程工具 [20]。在Code Arena测试中,Claude-opus-4-5-20251101-thinking-32k得分为1510,GPT-5.2-high为1478,Gemini-3-pro为1477 [22] - **Agentic能力**:核心技术突破之一是交错思维链的使用,使智能体能在思考与行动间高频切换,提升实时修正能力并降低幻觉。在HLE测试中,Gemini-3-pro-preview准确率为37.5%,GPT-5-pro为31.6%,GPT-5.2为27.8% [24][25] - **多模态能力**:图片生成在质量、理解与控制能力上实现大幅跃升,进入可控、可用、可规模化生产阶段。原生多模态架构(统一token化)普及,以Gemini-3为代表 [28]。在OpenCompass测试中,Gemini-3-Pro得分为66.4,Seed1.6-vision为61.1,Qwen3-VL-235B-A22B-Thinking为60.2 [30] - **能力差距**:国产大模型整体能力与海外头部模型维持约半年的静态差距,在海外模型推出3到6个月后,国内头部厂商能推出能力相当的模型并达到SOTA水准 [32][33] - **发展路径**:海外模型厂商追求模型智能上限,国内模型厂商在有限资源下通过开源路线、工程及算法优化追求效率与性能的平衡 [37] 模型架构:基于Transformer的优化延续 - **主流架构**:Transformer架构延续,优化聚焦于模型架构、算法和工程,以提升参数利用效率和模型智能潜力 [40] - **MoE架构**:平衡性能与效率的稀疏专家混合网络(MoE)成为共识,通常仅激活模型总参数的10-20%,显著降低计算量。国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [41] - **注意力机制**:基于算法和工程优化提升效率,主要分为全注意力(Full-Attention,复杂度O(N^2))、线性注意力(Linear-Attention,复杂度O(N))和混合注意力(Hybrid-Attention)。模型厂商根据效果持续优化选择,如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入稀疏注意力将计算复杂度降至O(Nk) [49][50] - **工程优化**:核心是降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制、长上下文优化等。通过线性注意力、稀疏注意力、MLA内存优化等技术降低计算复杂度和显存占用 [54][55] 训练范式:预训练与强化学习 - **预训练 Scaling-Law**:预计2026年预训练阶段的Scaling-Law将重现,旗舰模型参数量将更上一个台阶。预训练通过算法和工程优化仍有提升空间,随着英伟达GB系列芯片成熟,模型将基于更高性能的万卡集群进一步突破智能上限 [3][61] - **强化学习重要性**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”。海外模型厂商非常重视,国内厂商如DeepSeek、阿里千问也在跟进。预计2026年海内外模型厂商强化学习占比将进一步提升 [3][61] - **算力与数据基础**:强化学习需要大规模算力提供稳定性,并高度依赖高质量数据。高质量数据用于奖励模型训练和SFT冷启动 [62] - **算法演进**:强化学习路径从RLHF、PPO、DPO演进至推理导向的强化学习(如GRPO),并正从静态离线向动态在线演进 [64][66] 路线展望:持续学习、模型记忆与世界模型 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制,实现持续甚至终身学习。Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是落地的关键 [4][70] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图。当前主要有三条技术路径:李飞飞团队World Labs的Marble模型(创建持久3D世界)、LeCun的JEPA架构(认知预测)、Google DeepMind的Genie 3(交互仿真) [87][90] - **短期与中长期焦点**:2026年模型厂商短期将聚焦强化学习和上下文工程,中长期围绕持续学习、模型记忆和世界模型等创新路线 [67] 回顾与展望:海内外头部大模型巡礼 OpenAI - **2025年进展**:在推理、Agentic、多模态、代码能力上全方位提升,发布了GPT-4.1、o4-mini、GPT-5、Sora-2等模型。开始探索商业化,如在ChatGPT中插入推荐广告,与软件厂商合作探索企业智能代理 [93] - **2026年展望**:预计将加速商业兑现,拓展企业端和广告市场,借鉴Cowork和Moltbot等企业端Agent案例打造新产品 [95] Gemini (Google) - **2025年进展**:Gemini-3的发布使Google跻身第一梯队,其原生多模态能力突出。Nano banana Pro图像生成模型具备空间推理和光影控制能力。商业化上更聚焦产品提效,Gemini月活达6.5亿,API每分钟消耗70亿tokens [98] - **2026年展望**:预计将延续原生多模态优势,推进Scaling-law,提升长链推理和端到端编程能力,并加速探索世界模型 [99] Anthropic - **2025年进展**:延续在编程领域的优势,发布了Claude Opus-4.5等模型,加强了代码与长任务处理能力。推出了面向开发者的Claude Code(ARR已突破10亿美元)和面向泛化用户的Cowork,探索企业Agent场景 [101][102] - **2026年展望**:预计将提升记忆能力,探索更多Agent泛化场景,让Cowork等产品具备“永久记忆”,成为理解用户的专属智能体 [103][104] 阿里通义千问 - **布局**:布局全模态模型矩阵,打开Agent市场空间 [105]
每日投行/机构观点梳理(2026-02-05)
金十数据· 2026-02-05 20:26
贵金属市场 - 路透调查显示,黄金有望在2026年再创新高,预期中值为每盎司4746.50美元,较去年10月预估的4275美元显著上升,一年前的预期仅为2700美元 [1] - 推动金价上涨的主要因素包括地缘政治风险、央行持续购金、对美联储独立性的担忧、美国债务上升、贸易不确定性以及“去美元化”趋势,这些因素预计在2026年继续支撑黄金 [1] - 白银价格预期同样被上调,目前预计2026年白银均价为每盎司79.50美元,而去年10月调查中对2026年的预期仅为50美元 [1] - 受美元走强影响,黄金和白银在亚洲交易时段双双下跌,强势美元成为贵金属走势的阻力 [2] 全球股市与区域配置 - 瑞银预计今年年底全球股市将上涨约10%,美国市场依然是投资者股票配置的核心组成部分,且后续仍有上行潜力 [3] - 瑞银看好中国、日本和欧洲市场,认为战略自主的推进、区域财政扩张和结构性改革有望在各地催生受益者 [3] - 中国政府对本土人工智能模型和芯片制造的明确支持,将为中国科技股进一步上涨奠定基础 [3] - 低利率环境下国内投资者追逐收益,医疗保健企业“走出去”、新消费模式兴起及电网现代化等结构性利好,有望惠及金融、医疗保健、消费、材料和电力设备等行业 [3] 外汇市场动态 - 日元兑美元跌至接近两周低点,市场对首相高市早苗在周日提前举行的选举中巩固执政地位的信心增强,这对日元构成压力 [4] - 三井住友日兴证券策略师认为,即便当局可能干预,日元仍可能进一步走软,市场共识是美元/日元汇率存在上行偏好 [5] - 高盛警告称,日本财政风险仍明显偏向上行,支出方面的担忧正在对日本国债和日元构成压力,除非日本央行转向更快的加息步伐 [5] - 法兴银行表示,欧元在2026年下半年可能转而对美元走弱,因为近期欧元升值的幅度已超过利差所能解释的水平 [6] - 西太平洋银行首席经济学家表示,澳洲联储可能被迫在3月份连续第二次加息,尽管核心预测仍是5月加息,但如果数据表现出更强势头,连续加息就可能发生 [6] 美国货币政策与金融市场 - 中信证券研报称,当前美国金融市场环境不具备缩表的条件,考虑到1月美国资金市场流动性压力才明显缓解,当前准备金占GDP比重仍为10%左右,美联储持有资产占GDP比重为20%左右,已接近疫情前2018年的水平 [6] 人工智能与科技发展 - 中金指出,回顾2025年,全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破 [7] - 银河证券认为,AI带来的收益主要体现在两条路径:平台端带动时长、转化与商业化效率提升;内容与工具端提升生产效率并降本,建议关注港股互联网、AI应用及产业链相关、内容端 [9] 医药行业 - 中泰证券战略看好原料药板块,小核酸、多肽、ADC毒素等创新药热门赛道带来产业链催化不断,在早期临床进展积极、早期市场导入顺利的催化下再度加强 [7] - 重点看好技术、产能领先,业务确定性强的联化科技、奥锐特、九洲药业、诺泰生物、天宇股份、美诺华等,板块多数公司当前处在存量业务见底,增量业务有望发力的拐点区间 [7] 汽车行业 - 中信证券指出,2026年开年,汽车行业受存储、动力电池、上游资源品等原材料超预期涨价影响,一季度利润率面临压力 [8] - 存储涨价因AI超级周期挤占需求,持续时间可能贯穿全年,对智能汽车成本影响刚性、但幅度大概率小于1% [8] - 电池由碳酸锂涨价也面临成本提升,测算2026年全年平均单车成本提升约3000元,不过由于碳酸锂价格传导有缓冲,且主机厂对带电量具有主动调节性,该影响并非刚性 [8] - 铜铝涨价由上游资源品价格异动影响,单车平均增加成本约2000元,久期难以判断,套期保值可部分对冲影响 [8] - 建议关注成本转嫁能力强、产品结构优、全球化布局领先的整车企业 [8] 日本政治与市场 - 中金研报称,日本众议院选举将于2月8日举行,此次选举是选择执政党及首相的关键政治选举 [9] - 目前日本主流媒体的舆论调查显示自民党获得席位或较选举前大幅增加,存在单独过半数的可能性,在此情景下,各类日本资产的价格波动方向或发生日股大幅上升、日债利率上行、日元贬值的走势 [9]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]
谷歌微软的天使投资人押注,这家GEO公司用模型记忆提升AI可见性丨涌现新项目
搜狐财经· 2026-01-23 08:21
公司概况与融资 - geoSurge是一家专注于生成式引擎优化(GEO)的初创公司,总部位于伦敦,成立于2025年4月 [1] - 公司已完成由欧洲风投Passion Capital和美国硅谷风投Tuesday Capital支持的Pre-Seed轮融资,并获得来自谷歌DeepMind、微软AI等公司天使投资人的支持 [1] 核心团队 - 联合创始人兼CEO Francisco Vigo拥有12年商业数据分析经验,曾担任金融科技独角兽Zilch的首席数据科学家 [2] - 联合创始人兼CTO Jons Mostovojs是资深机器学习与系统工程专家,专注大模型与数据系统研发 [4] - APAC负责人李子月(Zoe)曾是欧洲早期AI/DeepTech风险投资人 [4] 产品与服务 - 公司产品分为三大板块:MEASURE(测量)、EXPLORE(探索)和BOOST(提升) [5] - MEASURE:监测品牌在主要AI系统(如ChatGPT)中的排名位置,追踪品牌被提及的频率、一致性及跨时间与市场的表现 [5] - EXPLORE:分析模型表现的形成原因,展示模型内部概率分配及思维过程,识别存在概率差距的领域,为客户提供优化方向 [6] - BOOST:通过语料库工程技术优化模型的信息集,主动影响模型的记忆和训练数据,以提升品牌在AI中的可见度和被准确识别的能力 [10] 技术路径与差异化 - 公司技术核心在于塑造模型的长期记忆,而不仅依赖检索增强生成(RAG)进行短期排名优化 [13] - 通过预先优化和准备语料库,确保品牌信息在模型训练或迭代过程中能被高效学习、记忆并精准调用 [13] - 相比其他以RAG方案为主的GEO服务商,公司专注于让模型本身认知并记住品牌 [13] - 公司能根据不同的模型、客户目标及目标市场量身定制策略,并接入大量遥测数据监测,确保客户数据能进入模型训练数据集 [14] 市场背景与行业挑战 - 2025年,GEO入选《麻省理工科技评论》年度AI十大热词,AI正成为下一个流量入口 [19] - 行业仍处早期阶段,美国明星创企Profound成立两年获三轮融资,Scrunch AI完成A轮融资,总融资额达1900万美元 [19] - 当前GEO服务效果仍不稳定,技术远未成熟,AI模型快速迭代,海量低质内容污染语料是行业面临的挑战 [19] - GEO比SEO(搜索引擎优化)复杂得多,LLM是基于数万亿参数的神经网络“黑箱”,其运作机制难以逆向工程 [16] 商业应用与效果案例 - 公司主要与高增长的科技公司、行业领军企业及拥有成熟营销团队的企业合作,已实现稳定的企业级商业应用 [15] - 计划在今年拓展亚太地区市场 [15] - 与一家英国房地产公司合作案例显示,经过一个BOOST周期后,其AI爬虫抓取活动量增加了5000倍,品牌在相关提示词中的存在感在各模型中表现更强且更一致,排名从几乎不被提及上升至第二名 [15] - 技术接入后,客户可在几周内看到早期效果,指标包括品牌提及率、随时间变化的稳定性、上下文准确性及AI爬虫活动的频率和深度 [14] 创始人观点与行业洞察 - 品牌被AI识别和引用的程度不稳定,面临“消失”风险,原因包括AI记忆不稳定、模型更新改变概念关联、AI回答通常仅包括少数几个选项 [17] - 品牌要在AI系统中实现长期持久的可见性,关键在于其本身被模型认知并记住 [17] - 公司认为,主导AI可见性的仍是模型内部记忆,因此专注于加强模型记忆层,并非取代SEO,而是增加其缺失的记忆层 [17] - 对于企业而言,需要双管齐下,在强化模型记忆的同时,也需进行传统搜索优化,实现SEO和GEO的协同效应 [18] - 衡量GEO效果的关键指标包括来自LLM的真实点击转化情况,以及AI爬虫的抓取次数 [20]
清华唐杰:领域大模型,伪命题
量子位· 2025-12-26 16:52
文章核心观点 - 文章系统阐述了人工智能大模型发展的八个关键方向与趋势 核心观点认为 通过持续扩大数据、参数和计算来扩展基座模型仍是最高效的路径 而模型能力的真正提升和价值的实现 依赖于对齐、推理增强、Agent化、记忆、在线学习等关键技术的发展 最终目标是让AI替代人类工作、创造增量价值 而非仅仅创造新的应用 [4][5][6][10][17][32] 关于基座模型扩展 - 预训练使大模型掌握了世界常识并具备简单推理能力 [4] - 获取更多数据、使用更大参数和更饱和的计算 仍然是扩展基座模型最高效的办法 [5] - 基座模型继续扩展规模仍然高效 [6] 关于激活对齐与增强推理能力 - 真实使用体验的进一步提升 绕不过对长尾能力的对齐和推理能力的增强 [6] - 激活对齐和增强推理能力 尤其是激活更全面的长尾能力 是保证模型效果的另一关键 [7] - 通用基准测试的出现评测了模型通用效果 但也可能导致模型过拟合 [7] - 真实场景下的关键是如何让模型更快、更好地对齐长尾场景 增强实际体验 [8] - 训练中期和后期的技术使得更多场景的快速对齐和强推理能力成为可能 [9] 关于智能体 - 智能体是模型能力扩展的里程碑 体现了AI模型进入人类真实世界的关键 [10] - 没有智能体能力 大模型将停留在理论学习阶段 无法转化为生产力 [11] - 原先智能体通过模型应用实现 现在模型已可直接将智能体数据集成到训练过程 增强了通用性 [11] - 不同智能体环境的泛化和迁移是难题 最简单的办法是增加不同环境的数据并进行针对性的强化学习 [11] - 智能体代表模型开始进入环境、开始形成生产力 [6] 关于模型记忆 - 实现模型记忆是模型应用到真实环境必须具备的能力 [12] - 大模型实现类似人类短期、中期、长期和历史记忆的不同阶段是关键 [13] - 上下文、检索增强生成和模型参数可能分别对应人类的不同记忆阶段 [13] - 一种方法是压缩记忆并存储在上下文中 如果大模型支持足够长的上下文 则有可能实现短中长期记忆 [13] - 如何迭代模型知识、更改模型参数仍是个难题 [14] 关于在线学习与自我评估 - 有了记忆机制 在线学习成为重点 目前大模型定时重新训练的方式存在浪费和丢失交互数据的问题 [14][20] - 实现在线学习是关键 自我评估是在线学习的关键点 模型需要知道对错才能自我改进 [14] - 构建模型的自我评价机制是个难题 [15] - 这可能成为下一个扩展范式 [15] - 模型的自学习自迭代将是下一阶段的必然能力 [20] 关于模型研发与应用结合 - 大模型发展越来越端到端 需将模型研发与模型应用结合 [16] - AI模型应用的第一性原理不应该是创造新的应用 其本质是通用人工智能替代人类工作 [17] - 研发替代不同工种的AI是应用的关键 [17] - 聊天部分替代了搜索 并融合了情感交互 [18] - 明年将是AI替代不同工种的爆发年 [19] - 大模型应用需要帮助人、创造新的价值 [34] - 如果AI软件没人用、不能产生价值 则没有生命力 [35] 关于多模态与具身智能 - 多模态是未来且有前景 但当下多模态不大能帮助提升通用人工智能的智能上界 [21][22] - 最有效的方式可能是文本、多模态、多模态生成分开发展 适度探索三者结合需要勇气和雄厚资本 [23] - 具身智能的痛点在于太难通用 少样本激活通用具身能力基本不可能 [23] - 解决方案是采集或合成数据 但这都不容易且昂贵 [23] - 一旦数据规模上去 通用能力出来自然会形成门槛 [24] - 机器人本身的不稳定和故障频繁也限制了具身智能的发展 [25] - 预计2026年这些领域将取得长足进步 [26] 关于领域大模型与大模型应用 - 领域大模型是个伪命题 通用人工智能实现后不应有领域特定的通用人工智能 [27][28] - 但在通用人工智能实现前 领域模型会长时间存在 [28] - 领域模型的存在本质上是应用企业希望构建领域知识的护城河 不希望AI入侵 希望把AI驯化为工具 [29] - AI的本质是海啸 将卷走一切 一定有一些领域公司会走出护城河 卷进通用人工智能的世界 [30] - 领域的数据、流程、智能体数据会慢慢进入主模型 [31] - AI的应用有两种路径:一种是将原有需要人参与的软件AI化 另一种是创造能替代人类某个工种的全新AI软件 [33]