Llama 4 Scout
搜索文档
中金::人工智能十年展望):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金· 2026-02-24 22:20
报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出,大模型的演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极,AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级,并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结 模型记忆重构下的存储范式与软硬件红利 * 报告提出,模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级,并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”,其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索,硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石,对应“温数据”,软件技术包括GraphRAG与MemoryOS等,硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化,报告归纳了内隐参数、外显语义、参数化查表三条实现路径,将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统:训练、推理、Agent * 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导,核心瓶颈在于KV Cache对HBM容量的挤占,若启用检索增强或Agent能力,还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越,中期记忆跃升为系统智能的连续性载体,其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆:即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”,其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战:1)KV Cache显存占用随上下文长度线性增长,传统内存管理技术导致显存浪费率高达**60-80%** [31][32];2)预填充与解码阶段存在算力权衡,混合部署会导致资源争抢 [39];3)Agent场景下缺乏高效记忆管理,导致重复计算和资源浪费 [39] * 软件解法包括:1)单卡显存虚拟化,如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43];2)PD分离优化集群算力调度;3)模型架构前沿探索,如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类:1)HBM用以承接KV Cache膨胀;2)片上SRAM负责处理瞬时状态;3)NVLink等互连技术编织分散的显存资源池 [50] 中期记忆:AI Agent的基石 * 中期记忆承载Agent的情景连续性,旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战:1)存储环节,SSD随机读取延迟是DRAM的**1000倍** [63];2)检索环节,易导致“上下文污染” [63];3)更新和遗忘环节,低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势:1)向量RAG是基础方案;2)分层RAG通过构建递归摘要树提升连贯性;3)GraphRAG引入知识图谱,在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类:1)大容量DRAM常驻热点索引与图谱拓扑;2)企业级NVMe SSD存储海量原始切片与高精度索引;3)CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆:知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制,实现知识的持续积累,模型训练与推理的界限正在模糊 [5][86] * 路线一(内隐参数):通过微调或训练将知识固化进模型参数,如Google Titans的测试时训练机制 [91][95] * 路线二(外显语义):将多次会话沉淀的结构化信息存储为可查阅的“百科全书”,催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三(参数化查表):如DeepSeek Engram架构,将静态知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异:内隐参数路径要求推理芯片具备训练能力并抬升HBM需求;外显语义路径是重存储架构,催生企业级SSD、CXL内存池及高性能CPU需求;参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]
2026年投资峰会速递:AI产业新范式
华泰证券· 2025-11-10 20:07
行业投资评级 - 科技行业评级为“增持”(维持)[7] - 计算机行业评级为“增持”(维持)[7] 核心观点 - AI产业正经历从模型、训练到应用的全方位范式革新,行业演进加速 [2] - Scaling Law 2.0时代下,合成数据与Mid Training范式重塑模型演进路径,算力扩张仍是核心增长引擎 [2][3] - AI应用商业化步入规模化阶段,Agent能力与交易闭环融合带动产业落地加速 [2][6] 模型层:算力与数据驱动演进 - 算力扩张是行业核心增长引擎,2010-2024年代表性模型训练算力年均增长4-5倍,头部模型达9倍水平 [3][13] - 合成数据持续扩大训练资源池,典型开源模型训练数据常见于10-15万亿tokens,头部厂商通过新方法持续扩容,例如阿里Qwen系列从18万亿tokens提升至36万亿tokens [3][12] - 预计前沿模型单次完整训练成本或在2027年达到十亿美元量级 [3][13] 训练层:Mid Training范式突破 - Mid Training成为Scaling Law 2.0重要标志,通过将强化学习前移至中间环节,实现算力对数据的自我生成与最优分配 [4][16] - 该范式在多智能体辩论等机制下生成数据量远超人工标注,并通过动态权重分配提升强化学习训练质量与数据利用率 [4][16] - Mid Training的应用有望突破传统Scaling Law下的性能边界,打开模型能力上限 [4][16] 智能体层:架构标准化趋势 - GPT-5以统一架构实现快思与深思的自适应协同,并通过实时路由器按任务复杂度动态分配算力资源 [5][19] - 该“统一系统”范式代表行业向“多模型一体化、动态资源分配”方向演进,DeepSeek V3.1与Grok 4 Fast等产品快速跟进验证此趋势 [5][19] - 该架构有望显著提升智能体在复杂场景中的响应效率与稳定性 [5] 应用层:商业化规模化加速 - 头部厂商战略重心从模型能力转向商业化生态构建,OpenAI推出Agentic Commerce Protocol,使AI Agent具备直接交易能力,实现从“推荐”到“结算”的全链路闭环 [6][22] - 全球AI应用正经历产品化(2023)→商业化试点(2024)→规模化落地(2025)三阶段演进 [6][25] - 海外厂商已进入规模化放量初期,国内厂商受益于DeepSeek-R1等模型突破,应用节奏显著加快,部分AI应用(如深度研究、企业问数)已具备大规模商业化能力 [6][26] - Agent与交易协议的深度结合、ROI体系的持续明晰,正推动AI应用产业价值释放进入加速期 [6]
重塑记忆架构:LLM正在安装「操作系统」
机器之心· 2025-07-16 12:21
大型语言模型记忆能力与上下文窗口 核心观点 - 现代大型语言模型(LLM)存在内在的「记忆缺陷」,上下文窗口有限导致难以维持长期一致性 [5][6] - 长上下文处理能力与记忆能力密切相关,但上下文窗口不等同于记忆 [11][34] - 新兴记忆管理系统借鉴操作系统架构,实现更持久的LLM记忆 [48][50][54] 上下文窗口演变 - 早期GPT-3仅支持2,048 token,近期模型如Llama 4 Scout可达1,000万token [2][4] - 上下文窗口扩展面临长度泛化、高效注意力、信息保留等挑战 [12][13][14] 记忆分类体系 - **短期记忆**:当前推理可见的历史文本,用于文档问答/多轮对话 [16] - **长期记忆**包含: 1) 事件记忆-记录代理操作历史 [18] 2) 语义记忆-整合外部知识与自我认知 [19] 3) 程序性记忆-系统运行机制与行为边界 [20] 提升记忆能力的技术路径 - **长上下文方法**: 1) RAG实现动态知识检索,减少幻觉 [27][28] 2) 分层摘要处理超长文本但易累积错误 [31] 3) 滑动窗口推理结合次级模型整合 [32] - **记忆系统架构**: 1) 固定记忆池(MemoryLLM)限制容量避免无限增长 [36][37] 2) 非固定记忆池采用键值对/隐藏向量等灵活形式 [41][42] 代表性记忆系统 - MemGPT借鉴操作系统分页机制管理虚拟内存 [50][52] - MemOS采用工业级分层架构融合Memory3技术 [52][54] - MemoryOS实现三级分层存储体系(实时/主题/个性化) [54][56] - MIRIX首创多模态多智能体记忆系统 [58][63] - Larimar受人类情景记忆启发构建分层框架 [60][64]
AI竞争压顶,Meta终于杀入风投
虎嗅APP· 2025-07-07 18:36
Meta的战略调整与AI布局 - Meta在AI竞赛中表现平平,LLaMA模型虽性能优质但缺乏亮点,用户期待类似Qwen和DeepSeek的推理模型[5][6] - 扎克伯格启动"超级智能单元"计划,组建50人顶级团队,提供9位数薪酬吸引人才[6][7] - Meta面临人才流失压力,工程师跳槽至OpenAI和Anthropic,即使提供200万美元合同仍无法挽留[6] Meta的CVC战略与收购动态 - Meta历史上未设专门CVC,并购案例如Instagram、Oculus等由战略部门或业务部门完成[4][5] - 计划收购Scale AI(148亿美元)和Safe Superintelligence(SSI),后者拒绝后转向投资NFDG基金,收购49%股份[7][8] - NFDG在AI领域地位显著,投资组合包括Perplexity、Character.ai等,其合伙人将加入"超级智能单元"[8][9] AI行业竞争与投资趋势 - 北美AI赛道占风险投资70%以上份额,但新创企业数量较2021年下滑81%,交易数量从2767笔降至515笔[12] - 企业主导的AI投资比例从2022年54.3%升至2024年75%,优质标的稀缺导致价格水涨船高[12] - Scale AI在F轮融资中估值138亿美元,获英伟达、英特尔等巨头投资,反映行业资源集中化[12] Meta的挑战与应对 - 扎克伯格采取激进管理策略,重组GenAI团队并降职原负责人,以提升LLaMA性能[2][5] - 尝试收购Thinking MachinesLab(估值100亿美元),但因卖方资金充足谈判未果[10][11] - 行业评论认为Meta需通过风险投资布局早期项目,避免成为"接盘侠"[13]
13万亿巨头,杀入CVC
36氪· 2025-07-05 10:33
公司战略调整 - Meta近期将资源从基础人工智能研究团队转移到GenAI团队,并拆分GenAI团队为两个工作组,原负责人被降职为联席主管 [2] - 扎克伯格亲自介入人工智能业务管理,要求员工高强度加班并频繁汇报细节,进入"创业者状态" [2] - 公司首次尝试使用CVC(企业风险投资)作为战略工具,以应对人工智能领域的竞争压力 [2] 人工智能业务现状 - Meta的LLaMA大模型虽性能优质,但在OpenAI、xAI等竞争对手衬托下显得"平平无奇" [1][5] - 用户期待Meta推出类似Qwen和DeepSeek的推理模型,但LLaMA在通用用例和推理方面落后 [5] - 公司面临严重人才流失,多名人工智能工程师被竞争对手以200万美元以上合同挖走 [6] 超级智能单元计划 - 扎克伯格计划组建50人规模的顶级人才团队,提供高达9位数薪酬 [6] - 已花费148亿美元收购Scale AI,其创始人将负责该项目 [6] - 尝试收购Safe Superintelligence未果后,改为投资NFDG风投基金,换取其合伙人加入 [7] 行业竞争格局 - 北美人工智能领域占据70%以上风险投资份额,但新创企业数量较2021年峰值下降81% [11] - 2024年人工智能领域515笔风险投资总额达669亿美元,其中75%由企业主导 [11] - 优质标的稀缺导致估值飙升,如Scale AI在F轮融资中估值达138亿美元 [11] 人才争夺战 - Meta为挖角OpenAI员工开出1亿美元签约奖金,但仍难吸引顶尖人才 [6][10] - Thinking MachinesLab完成20亿美元种子轮融资,估值达100亿美元 [9][10] - 该实验室创始人米拉·穆拉蒂从OpenAI带走近20名精英,包括多名高管 [10] 战略投资布局 - NFDG基金投资组合涵盖Perplexity、Character.ai等多家知名人工智能企业 [8] - Meta将通过投资NFDG获得其49%股权,并引入两位资深合伙人 [7] - 公司发言人表示将在未来几周公布更多关于超级智能单元的人才加入信息 [8]
速递|2.15亿美金豪赌AI瘦身术!Multiverse压缩LLM尺寸95%,让Llama在树莓派上狂奔
Z Potentials· 2025-06-13 11:17
融资情况 - 西班牙初创公司Multiverse Computing完成1.89亿欧元(约合2.15亿美元)B轮融资,由Bullhound Capital领投[1] - 参与机构包括惠普科技风投、SETT、Forgepoint Capital International、CDP Venture Capital等[1] - 公司累计融资达2.5亿美元[2] 技术优势 - CompactifAI技术可将LLMs模型尺寸缩减高达95%且不影响性能[2] - 提供Llama 4 Scout、Llama 3.3 70B等开源模型的压缩版本[2] - 计划发布DeepSeek R1压缩版,并开发更多开源推理模型[2] - 压缩后模型速度提升4-12倍,推理成本降低50%-80%[3] - Llama 4 Scout Slim版在AWS上每百万token成本为10美分(原版14美分)[3] 应用场景 - 压缩模型可运行于个人电脑、手机、汽车、无人机及树莓派等设备[3] - 模型通过亚马逊云服务提供或授权本地部署[2] 客户与专利 - 拥有160项专利和全球100家客户,包括Iberdrola、Bosch、加拿大银行等[2] 团队背景 - 联合创始人兼CTO Román Orús是张量网络领域开创者[3] - 联合创始人兼CEO Enrique Lizaso Olmos曾任西班牙Unnim Banc银行副首席执行官[4] 技术原理 - 张量网络技术能模拟量子计算机并在普通计算机上运行,主要用于压缩深度学习模型[4]
砸千亿重金、挖28岁华裔天才CEO、高薪聘谷歌OpenAI员工,传Meta正重组AI研发体系
36氪· 2025-06-12 07:33
Meta成立超级智能实验室 - Meta将成立专注于开发超越人类智力的"超级智能"AI系统的新实验室 [1] - 邀请Scale AI创始人兼CEO、28岁华裔天才亚历山大·王加入该实验室 [1] - 公司同意以148亿美元收购Scale AI 49%股份 [1] Meta高薪挖角AI人才 - 向OpenAI、谷歌等企业的数十名顶尖研究员提供百万至千万美元级待遇方案 [3][4] - 部分人员已同意加入Meta [3] - 公司AI团队由生成式AI小组和基础AI研究实验室两部分组成 [4] Scale AI业务表现 - Scale AI 2023年营收达8.7亿美元,预计2024年销售额翻倍至20亿美元以上 [3] - 公司成立于2016年,主要向微软、OpenAI等提供数据标注解决方案 [3] - 创始人亚历山大·王19岁辍学创立Scale AI,2022年公司估值超百亿美元 [3] Meta AI模型发展 - 2023年发布Llama模型和Meta AI聊天机器人,应用于旗下多个产品 [5] - 2024年推出Llama 4 Scout和Llama 4 Maverick两个新版本 [5] - 新模型在多项基准测试中表现优于或相当于OpenAI、谷歌同类产品 [7] AI行业竞争格局 - 微软向OpenAI投资超130亿美元,亚马逊向Anthropic投资80亿美元 [9] - 谷歌斥资超25亿美元从Character.AI等创企聘请人才和授权技术 [9] - Meta面临监管风险,美国联邦贸易委员会正对其收购行为提起诉讼 [9] Meta战略调整 - 公司此前AI战略过于分散,导致在ChatGPT引爆市场后陷入被动 [10] - 挖角亚历山大·王旨在弥补技术差距,重塑竞争优势 [10] - 公司内部存在研发效率低下、人才流失严重等问题 [10]
Meta delays release of flagship ‘Behemoth' AI model as engineers struggle: report
New York Post· 2025-05-16 07:15
Meta Platforms延迟发布Behemoth AI模型 - 公司因技术能力问题推迟旗舰AI模型Behemoth的发布,工程师难以显著提升其性能[1] - 内部员工质疑该模型相比早期版本的改进是否足以支持公开发布[1] Behemoth模型发布时间线 - 最初计划在4月Meta首届AI开发者大会期间发布[2] - 后内部目标推迟至6月,现进一步延迟至秋季或更晚[2][3] 模型技术定位 - 公司称Behemoth为"全球最智能的LLM之一"及"迄今最强大模型"[3][5] - 该模型被设计用于指导公司新一代AI模型的训练[3] 同期其他模型发布 - 4月已发布Llama系列新版本Llama 4 Scout和Llama 4 Maverick[5]
Report: Meta Delays Rollout of Behemoth AI Model Amid Performance Concerns
PYMNTS.com· 2025-05-16 05:53
Meta旗舰AI模型Behemoth延迟发布 - 公司原计划4月发布Behemoth,后推迟至6月,现再次延迟至秋季[1] - 延迟原因包括模型改进困难及担忧其性能无法达到公开宣传水平[2] - 公司未公开承诺具体发布时间表[1] Behemoth模型性能定位 - 公司宣称Behemoth在某些测试中已超越Anthropic、Google和OpenAI的同类模型[2] - 4月5日发布的Llama 4 Behemoth被描述为"全球最智能LLM之一"和"迄今最强大教学模型"[3] Meta AI战略投入 - 2024年资本支出计划从600-650亿美元上调至640-720亿美元[4] - 增加AI数据中心支出以深化技术整合至全家桶应用[3] - 加速算力资源部署应对需求增长,同时推进长期容量扩展项目[5] 开源模型竞争策略 - 4月5日同步发布的开源模型Llama 4 Scout和Llama 4 Maverick[5] - 该策略直接挑战竞争对手的闭源高价模型[5] - 开源方案有助于降低企业AI部署成本[5] 管理层战略表态 - CEO强调AI正在重塑所有业务领域[5] - 认为当前机遇规模空前,需加快能力建设节奏[5]
击败DeepSeek V3?Meta强势炸场,史上最强Llama 4开源!
格隆汇· 2025-04-06 14:22
文章核心观点 全球科技巨头AI军备赛激烈,Meta推出强大开源AI大模型Llama 4系列并将训练2万亿参数模型,力争成为全球顶尖AI公司 [1][2][19] 分组1:Llama 4系列模型介绍 - Meta于当地时间4月5日推出最强大开源AI大模型Llama 4,是多模态大模型,采用混合专家架构,支持12种语言 [3][4] - Llama 4系列已推出Scout和Maverick两个版本,Scout有170亿活跃参数、16个“专家”模型、1090亿总参数,Maverick有170亿活跃参数、128个“专家”模型、4000亿总参数 [5][6][7] - Scout最高支持1000万上下文输入,在广泛基准测试中分数超过多个模型;Maverick用一半参数使推理编码能力与DeepSeek - v3 - 0324相当,在多项基准测试中碾压同类模型 [8][9][11] - 用户可从llama.com和Hugging Face下载Llama 4 Scout和Llama 4 Maverick模型,很快也将在主流云和数据平台等提供 [12][13] 分组2:Llama4 - Behemoth模型介绍 - Meta正在训练的2万亿参数的Llama4 - Behemoth模型未来几个月面世,是多模态专家混合模型,有2880亿活跃参数、16个专家、总参数量2万亿 [14] - 该模型在多个STEM基准测试中表现优于GPT - 4.5等模型,Meta称其将是未来全球最智能的大模型之一 [15][16] 分组3:Meta公司目标与计划 - 扎克伯格表示Meta目标是建立世界领先人工智能并开源普及,Meta AI得到重大升级 [17][19] - Meta将于4月29日举办首届LlamaCon AI大会,力争赶超竞争对手成为全球顶尖AI公司 [19] - 公司计划今年斥资650亿美元扩建AI基础设施,可能包括近10亿美元在美国威斯康星州中部建立数据中心项目 [19]