Workflow
AI记忆
icon
搜索文档
OpenClaw带火AI记忆,DeepMind用混合记忆把3D重建拉到近2万帧
机器之心· 2026-03-15 09:20
文章核心观点 - 谷歌DeepMind与加州大学伯克利分校联合提出了一种名为LoGeR的新型前馈3D重建架构,该架构通过创新的混合记忆模块,成功解决了现有模型在处理长序列视频(如数千至两万帧)时面临的上下文壁垒和数据壁垒问题,实现了在无需后期优化的情况下,将密集3D重建扩展到极长序列,并在多个基准测试中性能显著超越现有方法[2][4][24][25] 技术背景与现有挑战 - 现有前馈3D重建模型(如DUSt3R、MonST3R、VGGT)依赖短时上下文窗口(几十到一百多帧),难以有效建模长序列(数千到数万帧)中的依赖关系[1] - 主要障碍包括架构上双向注意力的二次计算复杂度限制,以及训练数据主要来自短时上下文“气泡”,导致模型无法在推理时整合长距离信息[2] LoGeR架构创新 - 核心创新是提出一个**基于学习的混合记忆模块**,该系统结合了参数化的测试时训练记忆模块和非参数化的滑动窗口注意力机制[2] - **测试时训练记忆模块**:用于锚定全局坐标框架,防止尺度漂移,通过概念层面压缩重要但冗余的几何信息来实现长距离、有损的信息传播[13] - **滑动窗口注意力机制**:关注相邻块的帧,建立无损的信息传递通道,确保跨块边界的细粒度几何对齐,其计算和内存效率高,仅在网络部分深度(四层)插入[14][15] - 两种机制互补:TTT提供可扩展的长距离记忆,SWA确保相邻块间的高精度一致性[16] 训练方法与数据策略 - 为克服“数据壁垒”,研究构建了训练数据集,重点增加了大规模场景数据集(如TartanAirV2)的比例,为学习有效的几何压缩提供必要的长时信号[19] - 采用**渐进式课程学习策略**稳定训练:从48帧序列分4块开始,逐步增加块密度至12块,最后利用H200 GPU将上下文长度扩展到128帧并逐步增加至20块[21] - LoGeR模型从第一阶段的模型开始,集成了前馈对齐步骤,并在后续课程中进行微调[22] 性能评估结果 - 在KITTI基准测试中,LoGeR将绝对轨迹误差降低了**超过74%**,其平均性能甚至超过了当前最强的基于优化的方法VGGT-Long,优势达到**32.5%**[4][24] - 在开环场景(如KITTI序列01、03、04、08和10)中,LoGeR无需依赖回环检测即可有效抑制长序列中累积的漂移误差[24] - 在重新设计的VBR数据集(包含最多19000帧的序列)上,LoGeR明显超越先前的前馈方法,能在长达2万帧的超长序列中保持稳定的全局尺度,而基线方法出现明显尺度漂移[4][25] - 在短序列评测(如7-Scenes、ScanNetV2和TUM-Dynamics数据集)中,LoGeR及其基线方法在3D重建质量和相机位姿估计精度上均显著优于现有亚二次复杂度方法[27][30]
广发证券:SRAM提升AI推理速度 相关架构进入主流大厂视野
智通财经· 2026-02-27 15:35
SRAM在AI芯片架构中的核心优势 - SRAM作为集成在CPU/GPU计算核心附近的片上存储 具备纳秒级访问时延与高度确定性的带宽特性 但容量小且成本高 [1] - 在大模型应用中 相比依赖外置HBM SRAM可显著降低权重与激活数据的访问延迟与抖动 从而改善Time-to-First-Token与尾时延表现 [1][2] - Groq的LPU单芯片集成约230MB片上SRAM 存储带宽高达80TB/s 而GPU片外HBM的内存带宽约为8TB/s [2] - Cerebras的WSE-3芯片集成44GB SRAM 片上存储带宽达21PB/s [3] SRAM架构AI芯片的性能表现 - 以Llama 3 70B模型为例 Groq LPU芯片在不同上下文长度下均能维持稳定推理速度 达275-276 token/s 显著优于其他推理平台 [2] - Cerebras WSE-3芯片在OpenAI GPT OSS 120B推理任务中实现超过3000 tokens/s的输出速度 较主流GPU云推理快约15倍 [3] - OpenAI在Cerebras AI加速器上运行的GPT-5.3-Codex-Spark预览版 支持超过1000 tokens/s的代码生成响应速度 [3] SRAM架构获得产业巨头认可并进入主流视野 - 2025年12月 英伟达斥资200亿美元获得Groq知识产权的非独家授权 包括其语言处理单元和配套软件库 并引入Groq核心工程团队 [1][4] - 2026年2月 Cerebras完成10亿美元F轮融资 估值达230亿美元 [4] - 2026年2月 OpenAI与Cerebras签署100亿美元合同 部署多达750兆瓦的定制AI芯片 [1][4] 投资观点总结 - AI记忆持续扩展模型能力边界 AI Agent等应用加速落地 [5] - AI记忆相关上游基础设施的价值量与重要性将不断提升 [5]
广发证券:HBF在读为主应用优势显著 商业化进程加速
智通财经网· 2026-02-27 10:03
HBF技术定位与核心优势 - HBF是一种基于3D NAND闪存、通过类似HBM的封装互连方式将多个NAND芯片堆叠起来的技术,形成兼具高带宽和大容量的存储层 [1] - HBF定位介于HBM与SSD之间,面向AI推理场景,旨在提供更高容量扩展、更优能效及更低总体拥有成本 [2] - 在相同物理空间内,单个HBF堆栈可提供高达512GB的容量,较HBM提升一个数量级,显著降低系统单位容量成本 [2] - 根据Sandisk数据,首代HBF目标参数包括:16-die堆叠、单堆栈512GB容量,1.6TB/s读取带宽,读取带宽可接近HBM水平,同时静态功耗明显更低 [2] - HBF的写入/擦除寿命是主要限制,更适合承接读多写少、可预取的数据层,而时延最敏感、更新最频繁的数据仍应由HBM承接 [2] - HBF有效填补了HBM与传统固态硬盘之间的空白,为对容量和成本敏感的读取密集型应用提供理想的解决方案 [1][2] HBF商业化进程 - 2025年8月,Sandisk宣布与SK hynix合作推进HBF标准化生态建设 [3] - 2026年2月,双方宣布在OCP体系下,启动下一代HBF全球标准化进程 [3] - 闪迪计划于2026年下半年提供HBF模块样品,并于2027年初推出首批集成HBF的AI推理服务器 [3] - SK hynix在OCP 2025上将HBF纳入其AIN产品线中的AINB方向 [3] - 三星电子于2025年开始对自家HBF产品的早期概念设计工作,显示主流存储厂商对该技术路径的关注度持续提升 [3] 行业趋势与投资关注点 - AI记忆持续扩展模型能力边界,AIAgent等应用加速落地 [1] - AI记忆相关上游基础设施的价值量和重要性将不断提升 [1] - 建议关注产业链核心受益标的 [1]
AI的Memory时刻7:SRAM提升AI推理速度
广发证券· 2026-02-26 15:02
报告行业投资评级 - 报告未明确给出对“AI Memory”或半导体行业的整体投资评级,但重点覆盖的六家A股公司(澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备)均被给予“买入”评级 [4] 报告的核心观点 - **核心观点**:AI 的 Memory 时刻,AI 记忆持续扩展模型能力边界,AI Agent 等应用加速落地,AI 记忆相关上游基础设施的价值量和重要性将不断提升 [3] - **技术路径**:SRAM(静态随机存取存储器)作为片上高带宽存储层,能够显著提升 AI 推理速度,其架构正进入主流视野 [3][7] - **产业动态**:行业巨头(如英伟达、OpenAI)通过巨额投资与合作(如授权、融资、采购合同)积极布局 SRAM 技术路径,标志着该技术获得重要产业认可 [3] 根据相关目录分别进行总结 一、SRAM 是片上高带宽存储层 - **存储层级定位**:在存储分级(SRAM、HBM、DRAM、SSD)中,SRAM 是集成在 CPU、GPU 计算核心附近的片上存储 [3] - **性能特点**:具备纳秒级访问时延与高度确定性的带宽特性,带宽高但容量小、成本高 [3] 二、SRAM 可提升 AI 推理速度 - **性能优势**:相比依赖外置 HBM,SRAM 可显著降低大模型推理中权重与激活数据的访问延迟与抖动,从而改善首次令牌生成时间(Time-to-First-Token)与尾时延表现 [3] - **企业案例 - Groq**: - 其 LPU 单芯片内集成约 **230MB** 片上 SRAM,存储带宽高达 **80 TB/s**(对比 GPU 片外 HBM 内存带宽约为 **8 TB/s**)[3] - 在 Llama3.3 70B 模型测试中,Groq LPU 芯片在不同上下文长度下均能维持稳定推理速度,达 **275-276 token/s**,显著优于其他推理平台 [3] - **企业案例 - Cerebras**: - 其晶圆级引擎 3(WSE-3)芯片集成 **44GB SRAM**,片上存储带宽达 **21 PB/s**[3] - 在 OpenAI GPT OSS 120B 推理任务中实现 **>3000 tokens/s** 的输出速度,较主流 GPU 云推理快约 **15倍**[3] - 运行于其上的 GPT-5.3-Codex-Spark 预览版支持 **>1000 tokens/s** 的代码生成响应速度 [3] 三、SRAM 架构进入主流视野 - **英伟达与 Groq 合作**:2025年12月,英伟达斥资 **200亿美元** 获得 Groq 知识产权的非独家授权,包括其语言处理单元(LPU)和配套软件库,并引入 Groq 核心工程团队 [3] - **Cerebras 获资本与产业青睐**: - 2026年2月,Cerebras 宣布完成 **10亿美元** F 轮融资,估值达 **230亿美元**[3] - OpenAI 与 Cerebras 签署 **100亿美元** 合同,计划部署多达 **750兆瓦** 的定制 AI 芯片 [3] 四、投资建议 - **投资逻辑**:AI 记忆相关上游基础设施(如 SRAM 及相关产业链)的价值量和重要性将不断提升 [3][39] - **具体建议**:建议关注产业链核心受益标的 [3][39] - **重点覆盖公司**:报告列出了六家A股半导体公司并给予“买入”评级,包括澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备 [4]
首个大规模记忆湖发布,AI Infra跑步进入“记忆”时代
量子位· 2026-02-05 12:10
文章核心观点 - AI在企业应用正进入以“记忆平台”为核心的生产力时代,其核心价值在于将员工的隐性知识(如决策逻辑、经验)数字化、轨迹化,构建组织的“决策轨迹记忆中枢”,从而沉淀和复用核心智力资产 [7][8][10] - 大语言模型(LLM)是AI的“第一大脑”,擅长思考与推理;记忆平台是AI的“第二大脑”,负责长期、精确地存储海量事实并为LLM提供记忆支撑,两者分工协同以实现更精准、个性化的价值 [1][2][3] - 质变科技发布的MemoryLake(记忆湖)产品,作为业内首个具备超大规模实践的全栈记忆平台,通过整合多模态内容深度理解、记忆计算与管理、多模态记忆存储三大核心能力,正在引领以记忆为中心的AI基础设施变革 [12][16][38] AI记忆平台的概念与分工 - 记忆平台作为AI的“第二大脑”,主要负责按需为LLM提供准确记忆,让LLM从记忆负担中解放,专注于更高层次的推理与创造 [2] - LLM作为AI的“第一大脑”,擅长思考、推理与即时生成,但不擅长长期、精确地存储海量事实 [2] - 两者结合的理想状态是:记忆平台负责“记住一切”,LLM负责“思考一切” [3] 企业AI应用的发展阶段 - **1.0 连接阶段(2023年前)**:AI作为智能连接器,将企业数据导入向量数据库实现语义检索,但离核心生产流程遥远,未触及业务实质 [4][5] - **2.0 交互阶段(2023-2024年)**:大模型使自然语言对话调用数据成为可能,但难以表征专家头脑中的“隐性知识”,导致输出流于表面,存在“幻觉”困境 [6] - **3.0 生产力时代(2025年至今)**:行业焦点转向直接提升生产效率,关键在于将员工的决策逻辑、经验权衡等隐性知识数字化、轨迹化,构建组织“决策轨迹记忆中枢” [7][8] 记忆平台的市场前景与重要性 - 分析师预计,到2030年,AI智能体编排和记忆系统的市场将达到284.5亿美元,其中独立的AI记忆市场占128.8亿美元 [11] - 到2028年,全球AI解决方案市场规模将突破6320亿美元,其中AI记忆相关赛道规模超280亿美元 [27] - 记忆平台将企业最宝贵的智力资产——人脑中的判断力,转化为可迭代、可传承的记忆资产,是当前企业AI落地竞争的决定性因素 [10] 质变科技MemoryLake产品的核心能力 - **记忆管理能力**:将记忆分为短期/中期/长期、工作记忆、世界观记忆等,根据访问频率、复用价值、生命周期动态存储以平衡效率与成本 [18] - **多模态知识深度理解、提取与存储能力**:通过自研的MemoryLake-D1模型,精准提取文本逻辑、表格关联,转写音视频关键信息,识别图片内容,并将数据整理成知识图谱、Summary等形式,支持PB级精准检索 [19][20] - **记忆检索、计算、评估能力**:支持端到端的精炼且完整的上下文理解与组织,数据来源可精确定位,决策过程可追溯、可人工干预,满足企业低容忍度业务要求 [22][23] - **分布式Code计算能力**:确保AI调用记忆时能及时响应、顺畅对接,完全适配大模型普及后的使用需求 [20] MemoryLake的性能优势与客户实践 - 在极具挑战性的长程对话记忆基准测试LoCoMo上,MemoryLake记忆引擎以94.03%的综合得分位列全球第一,显著优于其他Benchmark [24][25] - 具备超大规模记忆场景的企业级实践,如在部分客户生产系统中处理超10万亿级记录、亿级文档 [16] - 服务了全球超150万专业用户和15000家企业,覆盖金融、工业制造、游戏、教育、法律、电商等多个行业 [32] - 在成本、准确召回率和延迟等性能指标方面,显示出数倍于全球云大厂和AI典型厂商的显著优势 [16] - 在记忆取用时,通过返回精炼且完整的记忆,平均可降低90%以上的Token消耗和计算成本 [37] MemoryLake的应用场景与价值 - **企业决策**:自动整合分散的项目文档、沟通记录、行业报告等信息进行推理分析,给出带证据的建议,将原本需数周的人工分析缩短至几小时 [34] - **沉浸式游戏**:为NPC建立“世界观记忆”和“玩家记忆”,使其能记住玩家的关键选择和成就,实现个性化互动与剧情推进 [36] - **制造业与金融业**:整合不同系统、不同时间的“生产记忆”或“交易记忆”,快速定位质量问题的根本原因或实时预警交易风险,大幅提升效率 [36] 行业竞争格局与公司优势 - 传统云厂商与数据平台缺乏针对多模态记忆的深度理解引擎与动态管理能力,难以应对复杂的企业级记忆需求 [28] - 头部大模型厂商虽拥有强大生成能力,但受困于数据碎片化,难以在复杂业务场景中给出准确、持续且可解释的决策 [30] - 质变科技凭借记忆管理与计算、数据大模型、AI数据平台三位一体的完整技术栈,在创业初期便获得资本高度青睐,天使轮融资达数千万美金,估值超2亿美金,新一轮融资已在路上 [30][31]
郑友德:AI记忆引发的版权危机及其化解
36氪· 2026-02-04 08:41
文章核心观点 - 斯坦福与耶鲁大学2026年初的研究证实,主流生成式AI模型对训练数据中的版权内容存在深度“记忆”与高保真“反刍”能力,个别模型对特定书籍的复现率超过95%,这揭示了AI“逻辑泛化”背后的“参数化复制”技术本质 [1][3][4] - 该技术事实与司法界关于“记忆是否构成复制”的定性分歧(如英德法院的相反判决)相结合,动摇了AI行业依赖“合理使用”的法律基础,可能引发建立在脆弱版权基础上的万亿级AI债务链条的系统性风险 [1][9] - 文章主张,此研究不应被视为产业创新的阻碍,而应成为推动AI产业向版权友好、负责任、透明和可持续发展转型的警示与行动路线图,并提出了涵盖技术、法律与治理的多层次危机化解对策 [1][40][47] 技术真相:模型深度记忆与反刍现象 - **实证研究结论**:斯坦福与耶鲁大学2026年1月的研究证实,所有受测的四款主流生产级大语言模型(LLM)均能提取出长篇受版权保护的文本,普遍存在复现版权内容的现象 [3][4] - **模型表现差异**:在特定攻击下,Claude 3.7 Sonnet对《哈利·波特与魔法石》的提取率高达95.8%;Gemini 2.5 Pro和Grok 3在无越狱情况下,仅通过简单指令即可分别复现76.8%和70.3%的书籍内容;而GPT-4.1防护最严密,提取率仅约4% [4][5] - **技术本质**:LLM的“记忆”是其工作方式下不可分割的固有特征,模型在预训练阶段将版权作品以参数化副本形式深埋于权重之中,现有的对齐与过滤护栏在防止“反刍”方面存在根本缺陷 [6][7] - **行业长期否认**:以OpenAI、谷歌为代表的AI公司曾向美国版权局声明,模型不会存储训练数据的副本,但上述研究提供了直接的技术证据反驳了这一说法 [8] 产业与金融风险 - **债务互锁风险**:AI行业通过“信贷套娃”模式深度捆绑,云基础设施供应商在2025年筹集了1210亿美元新债务,未来几年科技行业为基建所需的新债务规模可能高达1.5万亿美元 [9] - **系统性崩塌隐患**:整个万亿级资本帝国建立在“合理使用”这一脆弱的法理基础上,一旦核心公司因版权侵权被判巨额赔偿或强制下架,可能引发全链条信用违约 [9] 司法冲突与法律定性 - **英德判决对立**:英国高等法院在Getty Images诉Stability AI案中判决模型权重是“模式与特征的产物”,不构成侵权副本;一周后,德国慕尼黑法院在GEMA诉OpenAI案中做出相反判决,认定模型通过“有损压缩”实现了对作品的物理留存,“记忆即复制” [10][11] - **美国合理使用抗辩**:美国司法界在初步裁决中(如Bartz v. Anthropic, Kadrey v. Meta)倾向于认定将受版权书籍用于模型训练属于“高度转换性”的合理使用,但为使用盗版数据库和模型输出端造成“市场替代”划定了红线 [13][14] - **欧盟TDM豁免界限**:欧盟的文本与数据挖掘(TDM)法定豁免不涵盖LLM的“记忆化”行为,慕尼黑法院判定LLM构建永久性“数字档案”并成为原作“功能性替代品”,已超出豁免范畴 [15] 技术本质解构与证据 - **“学习隐喻”的瓦解**:研究证明AI底层是对信息的参数化存储与检索,而非人类式的抽象认知,高达95.8%的复现率表明所谓的“有损压缩”实质是高精度参数化复制 [17][18] - **图像领域的佐证**:Stable Diffusion创始人承认将10万GB图像“压缩”进2GB文件并可重新创建;研究显示,通过特定描述性提示词,模型能近乎精确地复现训练集中的原始图像 [19][21] - **文本复现的广泛性**:研究显示Meta的Llama3.1-70B模型能近乎逐字生成《哈利·波特与魔法石》等多部名著全文;平均8–15%的LLM生成文本与网上现有内容完全相同 [27][28][29] 监管安全与司法后果 - **过滤护栏失效**:现有防护极易被规避,例如通过拼写变体(如“crossing aminal”)即可让OpenAI的Sora 2模型复现《动物森友会》版权画面,证明防护措施脆弱 [30][31] - **模型本体侵权风险**:若法院像慕尼黑判决一样,认定模型内部存储了作品的参数化表达,原告可要求销毁侵权副本,AI公司可能面临强制报废模型并从头训练的风险 [34] - **企业误导与司法滞后**:AI企业将复现行为称为“边缘异常”和“技术漏洞”,但研究证实抄袭是模型内在特性;部分早期司法裁决因技术认知局限,低估了模型长篇幅复现的能力 [36][37][38] 危机化解与治理对策 - **技术内生合规体系**:建议构建全生命周期防护,包括输入数据净化、算法层引入差分隐私和反记忆正则化、输出端部署语义相似度监控与“高惊奇度”实时熔断机制 [41] - **版权许可与报酬制度**:提议建立法定强制许可机制,并借鉴“学习权”报酬制度,要求AI企业向创作者分享营收,通过公共基金补偿以维持创意生态 [42] - **司法责任边界**:主张依比例原则确立责任,若AI开发者已履行合理注意义务,应避免其承担严格责任;救济手段应优先采用功能禁令或合理赔偿,而非轻易判令销毁模型 [43] - **企业行动与行业现状**:研究披露后,除Anthropic停用Claude 3.7 Sonnet外,其他如xAI等公司未作回应;英伟达等公司被指控在训练中故意使用盗版资源,暴露出行业对侵权风险的消极回避 [44][45]
广发证券:AI记忆上游基础设施价值量、重要性提升 建议关注产业链核心受益标的
智通财经网· 2026-02-03 14:05
文章核心观点 - AI记忆正从“费用项”转变为“资产项”,成为支撑AI应用连续性与个性化能力的底层技术,有望推动AI Agent等应用加速落地,相关上游基础设施的价值和重要性将持续提升 [1] 英伟达推出ICMS平台 - 英伟达推出AI推理上下文存储平台ICMS,旨在为AI Agent与多轮推理场景提供“长期上下文记忆层”,以承载不断累积的KVCache,并以低延迟将历史KVCache回填到多GPU节点的多回合推理会话中 [1] - ICMS平台的KV访问模式呈现低TTFT约束下的高并发、高吞吐随机读取特性 [1] - 随着用户多轮会话与Agent持续运行,KVCache不断累积,系统对可长期留存并按需回填的分层KVCache形成刚性需求,推动上下文存储从HBM外溢至DRAM、SSD等分层介质 [1] ICMS平台的技术与经济性优势 - 在扩展性与经济性方面,SSD单位成本显著低于GPU内存,且可按TB、PB容量扩展,是长期上下文的天然承载介质 [2] - 可行性方面,引入PB级存储层后,ICMS的访问延迟仅较池化DRAM略高 [2] 1. 实证测试显示,在用户池持续扩张的decode阶段,当用户数增长导致KVCache外溢到更低层级存储时,与ICMS兼容的WEKA AMG解决方案凭借更高容量、更强的网络与并发随机访问能力,能更快完成上下文预取与回填,从而在大用户池阶段保持更高且更稳定的token吞吐 [2] - 与HBM+DRAM及HBM+DRAM+POSIX文件系统方案相比,WEKA AMG方案的token吞吐提升最高可达4倍,验证了ICMS在承接长期上下文并维持吞吐稳定性方面的有效性 [2] ICMS平台催生的存储市场空间 - 根据广发证券参考vastdata的测算,若10万个在线用户或Agent使用Llama 3.1 405B模型,单个token的存储空间需求为504KB/token [3] - 若每个上下文窗口为64000 tokens,则对应存储需求约为30GB [3] - 为获得更好用户体验,假设留存倍数为15倍,在上述条件下,支持10万用户的总上下文存储需求约为45PB [3] - 该测算表明,在具备强对话历史能力的大上下文模型上稳定支持10万用户/Agent,所需上下文存储规模可达PB级,为存储市场打开了新的空间 [3]
观点全追踪(2月第2期):晨会精选-20260203
广发证券· 2026-02-03 09:23
核心观点 - AI记忆是AI Agent的核心底层能力,其价值正从“费用项”转变为“资产项”,相关上游基础设施的价值量和重要性将不断提升 [2] 电子(AI/Agent领域) - **AI记忆的定义与作用**:在Agent时代,Memory负责跨轮次、跨任务的状态连续性,沉淀“我是谁”的个性画像、“从哪里来”的交互历史及“要到哪里去”的目标与反馈闭环,是支撑上下文连续性、个性化与历史信息复用的底层能力 [2] - **AI记忆的分类**:通常可分为四类:1) 工作记忆,用于当前任务的临时信息存取与推理(如上下文、KVCache),容量有限但响应快;2) 程序性记忆,是写进模型参数或规则流程里的隐性技能与操作步骤;3) 语义记忆,是对世界与自身的事实知识,常存于外部向量库/知识库;4) 情景(事件)记忆,记录过去经历与决策轨迹(对话历史、任务日志、成功/失败案例),便于复盘与长期改进 [2] - **行业趋势与影响**:AI记忆持续扩展模型能力边界,有望促进AI Agent等应用加速落地,其价值正从“费用项”转变为“资产项”,相关上游基础设施的价值量、重要性将不断提升 [2]
2026,进入AI记忆元年
36氪· 2026-01-27 18:28
大模型技术发展现状 - 自2023年年中起,SOTA模型的迭代周期被快速压缩至35天,曾经的SOTA模型在5个月内就可能跌出前五,7个月后可能跌出前十 [1] - 尽管模型持续迭代,但像ChatGPT、DeepSeek那样令人眼前一亮的新产品越来越少,技术进步进入小修小补的瓶颈期 [1] AI记忆成为行业新焦点 - 2023年,以Milvus、Pinecone、faiss为代表的向量数据库产品涌现 [2] - 2024至2025年期间,以Letta (MemGPT)、Mem0、MemU、MemOS为代表的各种AI记忆框架大量出现 [2] - 模型厂商如Claude和谷歌相继宣布为其模型增加记忆能力,引发行业关注 [2] - 在代码补全、情感陪伴、智能客服等场景,“模型+记忆”的商业模式正催生越来越多通过PMF验证的细分爆款 [2] - 红熊AI等主打AI记忆科学解决方案的厂商成为新的行业焦点 [2] 对AI记忆的行业误解一:记忆等于RAG加长上下文 - 在2023-2024年AI基础设施爆发期,RAG技术一度成为AI记忆的代名词 [4] - RAG通过外置向量数据库,使大模型能掌握训练阶段未更新的信息和私有知识 [4] - 传统RAG方案在落地中暴露出短板,例如在法律场景中,语义相似但适用性不同的条款会被混淆,且无法遵循法律效力优先级 [6] - 在客服场景中,RAG方案会为重复问题花费不必要的检索成本,且无法实现跨会话记忆 [7] - 基于语义检索的RAG方案只能解决不到60%的真实需求 [8] - RAG作为一种被动检索工具,解决了“不知道”的问题,但无法解决“记不住”的核心矛盾,且数据更新通常以周为单位,无法实时写入 [8] - RAG存在跨会话记忆丢失、信息无法动态沉淀、不会主动关联经验等能力盲区 [9] 红熊AI的记忆科学体系 - 真正的AI记忆需复刻人脑工作逻辑:短期记得住,长期有常识,判断有感情 [10] - 人脑处理信息经过编码、存储、提取三大环节,是一套动态、实时、可写入可检索的智能系统 [10] - 红熊AI据此打造了完整的记忆科学体系,将AI记忆拆解为显性记忆、隐性记忆、联想记忆及动态进化记忆,各层通过智能算法动态流转 [10] - 该体系为记忆加入了情感加权、智能遗忘、跨智能体协同等能力,从底层重构了AI记忆逻辑,解决了数据量爆炸带来的成本与上下文过长问题 [10] 对AI记忆的行业误解二:事实检索重于一切 - 红熊AI团队曾将准确率作为记忆系统的唯一KPI,这在金融风控、技术运维等事实优先的场景中运行顺畅 [11] - 但在情感咨询等场景中,用户需要的是被理解、被安抚、被肯定,而非精准的事实答案 [13] - 这促使红熊AI攻克了记忆系统的情感难题,通过给每段记忆贴上情感权重标签,从多维度量化用户情绪 [14] - 情感权重会决定记忆的优先级,并影响AI的回应逻辑,例如在用户有负面评价记忆时,AI需先安抚再同步事实信息 [14] 对AI记忆的行业误解三:Agent的未来是标准化 - 记忆与工具的加持降低了Agent开发门槛,可针对特殊场景提供解决方案,从而瓦解传统SaaS的场景壁垒 [15] - 但这也伴随着非标碎片化挑战,没有一套标准化记忆系统能适配所有行业,甚至同一行业的不同品类都需差异化定制 [15] - 在情商落地方面,不同行业的情感权重占比差异巨大:售后客服、教育场景占40%-50%,医疗、金融风控场景占10%-20%,通用陪伴场景占20%-30% [16] - 红熊AI必须在做好标准化能力的基础上,接受解决方案环节的非标准化 [17] 红熊AI的共性能力建设与非标解决方案 - 在记忆熊v0.2.0中,红熊AI强化了集群化Agent记忆协同能力,通过统一记忆中枢实现多Agent间的最小化、按需式记忆共享 [17] - 支持主管模式和协作模式,适配不同场景的智能体组织形态 [17] - 针对多模态数据处理,推出三大解析引擎实现100%版面还原,支持PPTX高保真解析、音视频以文搜音 [17] - 通过向量加图谱双驱动检索,将多跳推理准确率提升至92.5% [17] - 非标环节集中于行业词汇库积累、知识图谱打造等解决方案,首次拓展新品类客户需花费数周进行前期共建与知识梳理 [19] - 用户数据处理消耗整体约25%的成本 [19] - 需要积累不同行业知识,例如医疗行业的负面词是“疼痛、过敏、并发症”,金融行业核心词是“平仓、建仓、净值” [21] - 这种前期非标准化和缓慢的开拓过程,会成为企业的先发优势和核心壁垒 [21] 行业趋势展望 - 进入2026年,大模型的叙事正从以Scaling Law为核心的参数竞赛,切换至以记忆为主导的下半场 [22] - 记忆能力已成为拉开不同模型和Agent表现差异的核心 [22] - 参与玩家包括上游的模型厂商、框架玩家,以及红熊AI这样的专业解决方案商 [22] - 这一过程不如“百模大战”那样高举高打,也不会快速决出阶段性赢家 [22]
2026,进入AI记忆元年
36氪· 2026-01-27 18:16
行业趋势:AI竞赛进入以记忆为核心的下半场 - 自2023年年中起,SOTA模型的迭代周期被快速压缩至35天,曾经的SOTA模型在短短5个月就可能跌出Top5,7个月后连Top10都难以进入[3] - 模型技术进步进入瓶颈期,而过去两年多围绕AI记忆的技术和产品(如向量数据库、记忆框架)则呈现“你方唱罢我登场”的热闹景象[4] - 市场正诞生出越来越多跑通PMF的细分爆款,如代码补全、情感陪伴、智能客服等“模型+记忆”的商业模式[4] - 大模型的叙事正从以scaling law为核心的参数闪电战,切换至以记忆为主导的马拉松式下半场,记忆能力已成为拉开不同模型和Agent表现的核心来源[33] 对AI记忆的行业误解与红熊AI的解决方案 误解一:记忆等于RAG加长上下文 - 2023-2024年AI基础设施爆发期,RAG技术一度成为AI记忆的代名词,行业普遍认为叠加长上下文窗口和检索优化算法就能解决AI健忘问题[8] - 红熊AI创始人指出,传统RAG在落地中暴露出短板,例如在法律场景中,语义相似但适用范围天差地别的法条细节会被整体相似性掩盖,且无法遵循法律体系的优先适用规则[9] - 在客服AI场景中,RAG方案会导致每天重复回答相同问题时产生不必要的检索成本,并且在用户跨会话咨询时出现记忆丢失[10] - 基于语义检索的RAG方案只能解决不到60%的真实需求,其本质是被动的检索工具,无法解决“记不住”的核心矛盾,且通常只能以周为单位做离线数据更新,无法实时写入[10] - 红熊AI借鉴人脑记忆逻辑,打造了完整的记忆科学体系,将AI记忆拆解为显性记忆、隐性记忆、联想记忆以及动态进化记忆,不同层之间通过智能算法动态流转[12] - 该体系为记忆加入了情感加权、智能遗忘、跨智能体协同等能力,从底层重构了AI记忆的逻辑,解决了存储数据量爆炸带来的成本飙升和上下文过长问题[12] 误解二:事实检索重于一切 - 红熊AI团队曾将准确率当作记忆系统的唯一KPI,这在金融风控、技术运维等事实优先的场景中运行顺畅[15] - 但在情感咨询等场景中,用户需要的是被理解、被安抚、被肯定,而非精准的事实答案[17] - 这倒逼红熊AI攻克了记忆系统的情感难题,通过给每段记忆贴上情感权重标签,从多维度量化用户情绪(如文本中的负面/正面词汇密度、句式、情绪强度词,综合算出0-100分的情感分数)[18] - 情感权重不仅决定记忆的优先级,更影响AI的回应逻辑,例如当用户有高负面评价历史时,AI会优先安抚再同步事实信息[18] 误解三:Agent的未来是标准化 - 尽管市场期待超级Agent,但红熊AI认为Agent类产品的宿命是革命传统SaaS,但也必须走上SaaS非标碎片化的老路[22] - 没有一套标准化的记忆系统能适配所有行业,甚至同一行业的不同品类都需要差异化定制,例如电商中卖手机壳和卖手套的商家关注的关键词和记忆规则都不同[22] - 不同行业的情感权重占比天差地别:售后客服、教育场景情感权重占40%-50%,必须优先安抚情绪;医疗、金融风控场景仅占10%-20%,事实优先;通用陪伴场景占20%-30%[23] - 红熊AI必须在做好标准化能力的基础上,接受在解决方案环节的非标准化[24] 红熊AI的产品与能力建设 - 红熊AI在今年1月推出记忆熊v0.2.0,构建了完整的记忆科学体系[12] - 在记忆熊v0.2.0中,公司强化了集群化Agent记忆协同能力,通过引入统一记忆中枢,实现多Agent间的最小化、按需式记忆共享,解决传统多Agent系统的记忆冗余、冲突问题[24] - 针对多模态数据处理,公司推出了三大解析引擎实现100%版面还原,支持PPTX高保真解析、音视频以文搜音,并通过向量+图谱双驱动检索,将多跳推理准确率提升至92.5%[24] - 非标环节集中于行业词汇库积累和知识图谱打造,首次拓展新品类客户时,前期与客户共建及知识梳理就需要几周时间,用户数据处理消耗整体25%上下的成本[27] - 公司需要不断学习积累不同行业知识,例如医疗行业的负面词是“疼痛、过敏、并发症”,金融行业核心词是“平仓、建仓、净值”[29] - 这种前期非标准化的缓慢开拓,会成为企业的先发优势和核心壁垒,遵循SaaS行业从灯塔客户到细分行业解决方案再到全行业拓展的成长路径[30][31]