大语言模型
搜索文档
DeepSeek论文披露全新模型机制,SSD等存储需求有望再进一步,龙头还发布炸裂业绩
选股宝· 2026-01-14 07:24
论文技术要点 - DeepSeek发布新论文提出“条件内存”作为大语言模型稀疏性的新维度 [1] - 论文通过引入Engram模块实现条件记忆 该模块类似“字典”功能 [1] - 现有Transformer架构缺乏原生知识查找机制 需通过昂贵计算模拟检索 浪费模型深度 [1] - 条件记忆与MoE(混合专家模型)的条件计算形成互补 [1] - Engram模块在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [1] Engram模块技术细节 - Engram模块是一个巨大的、可扩展的嵌入表 [2] - 其功能是给Transformer增加一个外接记忆库 [2] - 模块将当前token附近的一小段内容 以快速、省参数的方式在超大的静态记忆表中查找对应内容 [2] - 采用分层存储设计 将高频访问的嵌入缓存于更快的存储介质中(如GPU HBM或主机DRAM) [2] - 将大量低频的长尾模式存放在容量更大但速度较慢的存储介质中(如SSD) [2] - 分层设计使Engram能够扩展到极大规模的记忆容量 同时将有效访问延迟的影响保持在最低水平 [2] 存储行业展望 - 未来2年NAND行业资本开支可能有限 头部厂商在扩产方面可能保持相对克制的水平 [2] - 三星、美光与SK海力士的资本开支有望持续向HBM倾斜而非NAND [2] - 未来AI应用有望推动SSD用量保持高速增长态势 [2] - 叠加全行业资本开支可能有限 NAND与SSD供不应求有望持续 迎来较长的景气周期 [2] 相关公司动态 - 佰维存储预告年报净利润8.5亿元-10亿元 同比增长427.19%-520.22% [2] - 江波龙已推出多款高速企业级eSSD产品 覆盖480GB至7.68TB的主流容量范围 [3]
桥水 中国市场新动作
中国证券报· 2026-01-14 07:23
桥水招聘中国政策AI研究助理 - 桥水近期发布“中国政策AI研究助理”岗位招聘 工作地点在纽约 要求普通话流利 能熟练运用人工智能与大语言模型 年度底薪16万美元至22.5万美元 另有浮动奖金[1] - 该岗位将协助深化公司对中国政策环境的理解 分析其对资产与经济的影响 运用AI工具处理中文政策文件与数据 并与研究及工程团队协作优化工具应用 以提炼洞察、识别趋势并预测宏观政策与资产走向[3] - 该岗位隶属桥水亚洲策略团队 其目标是在亚洲打造领先的投研组合与投资理念 以帮助投资者应对演变的地缘政治与宏观经济格局[3] 主观投研加速拥抱AI的趋势 - 将基于基本面研究的主观投研与AI结合 正成为行业重要趋势 桥水的AI战略被视为“主观投研拥抱AI的典型代表”[4] - 桥水内部组建了AIA实验室 致力于运用人工智能与机器学习创造超额收益 并于2024年推出一只以机器学习为主要决策依据的基金[4] - 公司人才策略正在转型 计划增加更多数据科学家的比例[4] - 其他国际资管机构也在布局“AI+主动投资” 例如贝莱德打造了融合AI的系统化主动权益投资策略 该策略依托另类数据和AI 利用AI生成量化信号并对信号进行动态配重[5] - 用AI做宏观语境分析与研判已成为主观投研“AI+”的重要方向 预示着行业投研分工将变化 初级研究工作或更多由AI承担 机构将更偏好兼具投研能力与信息结构化能力的复合型人才[5] 桥水对亚洲及中国市场的看法与布局 - 桥水在2025年底的分析中指出 投资者风险资产组合和全球市值对美国资产的集中度高达约70% 这是一个关键风险点 建议减配美国市场 增配其他市场——尤其是亚洲[6] - 桥水认为亚洲和新兴市场资产具备分散化价值 因其经济周期与政策走向与主要市场相关性较低 并且投资者可在非美国市场提升人工智能相关风险敞口[6] - 关于配置 桥水认为全球(除美国外)股票配置至少应与美股配置比例相当 且分散化投资正当时[6] - 多家外资巨头在2026年度展望中看好中国资产整体表现 尤其认为中国科技产业长期成长逻辑稳固 科技股行情有望在2026年延续[7] - 2026年年初至1月12日 多只在美国上市的中国股票ETF均获资金净流入 显示外资配置热情升温[7]
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
新浪财经· 2026-01-13 20:33
核心观点 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”的新模型训练技术,旨在绕过GPU内存限制,实现参数扩展并提升成本效率 [1][3] - 该技术通过将计算与存储解耦,提升模型处理长上下文和复杂推理的效率,并在一个270亿参数的模型中验证了其有效性,使主要行业基准测试表现提升几个百分点 [4] - 行业观察指出,DeepSeek凭借其低成本、高效率的模型(如DeepSeek-R1)在全球市场,特别是新兴市场快速普及,正对美国AI公司构成竞争压力,并预计将在2025年2月中旬发布具备强大编程能力的新V4模型 [6][7] 技术突破 - 提出“基于可扩展查找的条件记忆”技术,命名为“Engram”,用以解决扩大AI模型规模时GPU高带宽内存容量有限的关键瓶颈 [3][4] - 该技术将计算与存储“解耦”,让模型更高效地“查找”基础信息,从而节省“序列深度”以用于更高层次推理 [3][4] - 在一个拥有270亿个参数的模型中验证,使主要行业基准测试的表现提升了几个百分点,并为执行计算需求更高的复杂推理保留了更多容量 [4] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,其潜在影响被比作他们自己开发的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司动态与市场影响 - DeepSeek创始人梁文锋与北京大学研究人员共同署名发表该技术论文,论文列出了14位共同作者 [1][6] - 公司去年年初发布的DeepSeek-R1大模型,使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,但实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁布拉德·史密斯警告,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势,并指出DeepSeek的技术在非洲等新兴市场快速普及 [6][7] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 外界猜测公司将在2025年春节(2月中旬)之前发布一款重要的新模型,据称是一款具备强大编程能力的新V4模型 [1][7] 行业背景与竞争格局 - 香港《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年 [4] - 此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - 行业中最大的模型拥有数万亿个参数 [6] - 在过去一年中,DeepSeek一直是中国AI领域创新的典范 [1]
王小川,计划再造一个IPO
第一财经· 2026-01-13 20:31
公司战略与定位 - 百川智能已彻底聚焦于医疗赛道,并计划在2027年左右上市 [1][4] - 公司目前账上还有近30亿人民币资金 [1][4] - 公司正从通用大模型转向垂直应用,重点布局医疗领域 [1] 行业竞争格局 - AI医疗行业竞争进入深水区,国内外巨头纷纷入局,例如OpenAI推出OpenAI Health,Anthropic推出Claude for Healthcare,蚂蚁集团也在大规模进行行业挖角 [2] - 中国AI力量在过去一年从技术端到应用端均有突破 [1] - 在通用大模型领域,智谱和MiniMax已率先赴港上市,但其市值与商业化能力被认为不匹配 [1] 产品与技术进展 - 百川智能发布新一代开源医疗增强大语言模型Baichuan-M3,该模型在HealthBench评测中表现不错,具备原生的“端到端”严肃问诊能力 [2] - Baichuan-M3的问诊能力高于真人医生的平均水平 [2] - 公司当前产品重点放在儿科和肿瘤两个方向,已与北京儿童医院、中国医学科学院肿瘤医院合作推进真实场景验证 [3] - 公司计划在上半年陆续发布两款面向消费者(to C)的医疗产品,初期免费开放,后续可按模块引入付费能力 [3] 商业模式与市场观点 - AI在医疗领域的价值不仅在于赋能医生,更在于推动医疗决策权从医生向患者的部分让渡,通过提供信息支持、方案对比和风险解读来帮助患者决策 [3] - 公司未来可能通过与药企等建立深度服务等方式实现价值 [3] - AI医疗被视为大模型竞争中的一个重要范式,尽管成熟较晚,商业模型仍需继续调优 [4]
梁文锋署名DeepSeek新论文,“突破GPU内存限制”
观察者网· 2026-01-13 20:28
公司技术进展 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”(记忆痕迹)的“条件记忆”新技术 [1][2] - 该技术旨在通过将计算与存储“解耦”,绕过GPU高带宽内存(HBM)容量限制,解决扩大AI模型规模时的关键瓶颈 [2][3] - 新技术能够提升模型在处理长上下文时的效率,这是将AI聊天机器人转变为现实世界中有用代理的主要挑战之一 [3] - 研究人员在一个拥有270亿个参数的模型中验证了该技术,使主要行业基准测试的表现提升了几个百分点,并为执行更复杂的推理保留了更多容量 [3] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,并将其潜在影响比作此前开发的、已被其他中国竞争对手采用的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司发展动态与行业地位 - 外界猜测DeepSeek将在今年春节(2月中旬)之前发布一款重要的新模型 [1][7] - 美国硅谷媒体The Information报道称,DeepSeek预计将在2月中旬推出一款具备强大编程能力的新V4模型 [8] - 去年年初,DeepSeek发布的DeepSeek-R1大模型使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,却实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势 [6] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 微软总裁指出,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司面临的全球竞争,并称中国现在拥有不止一个具有竞争力的开源模型 [7] 行业背景与挑战 - DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国三星、SK海力士及美国美光科技等行业领军者落后数年 [3] - 行业中最大的模型拥有数万亿个参数 [6]
复盘特斯拉FSD进化史:把端到端推向无人驾驶终局
36氪· 2026-01-13 20:14
文章核心观点 - 特斯拉FSD通过V12至V14的三代端到端技术演进,实现了自动驾驶能力的跨越式提升,并在工程化、规模化方面建立了显著领先优势[7][15][45] - 特斯拉的领先源于其在算力投入、数据规模与质量、以及统一技术架构方面构建的深厚基础,这些条件难以被国内企业完全复制[69][82][83] - 国内智驾公司与特斯拉的差距正在从“代际差距”缩小为“工程效率差距”,未来竞争的关键在于如何在有限资源下找到适合自身的最优发展路径[12][86] 特斯拉FSD的技术演进与能力突破 - **V12(端到端基础版)**:通过端到端神经网络,将约30万行代码压缩至约3000行,让AI通过数据驱动学习人类驾驶行为,其能力在几个月内超越了多年的V11版本[18][19][21] - **V13(端到端完整版)**:基于HW4(AI4)硬件平台,AI算力达720TOPS,较HW3提升5倍,并增加了短期记忆与音频输入能力,实现了“车位到车位”的全场景覆盖[29][31][32] - **V14(端到端成熟版)**:模型参数提升4.5-10倍,视觉处理帧率提升至48Hz,并接入了Grok大语言模型,具备了意图理解和决策可解释性,为Robotaxi无安全员运营奠定基础[40][42][44] - **标志性成就**:搭载FSD V14的Model 3以0接管完成了从洛杉矶到南卡罗莱纳州约4400公里(2732英里)的横穿美国大陆行程,耗时2天20小时,远超2015年德尔福改装车耗时9天的记录[2][5][6] 特斯拉应对端到端技术挑战的策略 - **提升可解释性与安全性**:采用“生成式高斯泼溅”技术,在约220毫秒内重建三维环境,让工程师能理解模型的“世界观”,同时内置小型语言推理模型解释AI行为[52][54][55] - **革新训练方式**:打造“神经世界模拟器”,通过合成未来状态来验证模型优劣并生成低频极端场景进行测试,让系统理解决策后果而非单纯模仿动作[56][59][61] - **前瞻性布局**:在端到端规模化之前,就致力于构建可生成、可推演的世界模型作为基础设施,而非出现问题后打规则补丁[62][64][65] 特斯拉构建的竞争壁垒(基座) - **压强级算力投入**:转向以NVIDIA GPU为核心的Cortex训练集群,初始部署约5万张H100 GPU,2025年Q2新增1.6万张H200 GPU,整体训练能力进入数十至上百EFLOPS区间[70][72][73] - **高质量数据闭环**:截至2026年1月8日,FSD(监督版)累计行驶里程达71.73亿英里,其中城市复杂路况超25.9亿英里,车队每日数据相当于500年人类驾驶时长,并通过数据引擎高效挖掘Corner Case[76][77][78] - **统一架构与工程主义**:让同一套世界模型、感知与推理架构服务于自动驾驶、Robotaxi及人形机器人,兼容并蓄各种技术路径(端到端、世界模型、VLA等),不受单一范式束缚[67][82][83] 国内智驾行业的现状与展望 - **与特斯拉的差距**:国内头部企业(如小鹏)总算力约10 EFLOPS,年度AI投入约50亿元人民币,与特斯拉存在资源数量级差距,但技术差距已从最早的三年缩短至约一年[12][13][74] - **发展路径分化**:受资源限制,国内企业在技术路径上呈现分化,包括采用两段式端到端、引入VLA/世界模型或专注打磨中阶智驾体验等现实选择[51][85][86] - **未来竞争焦点**:差距性质转变为“工程效率差距”,竞争关键在于如何在有限资源下,将模型、数据与产品打磨扎实,并找到适合自身资源结构的最优路径(如合并资源、绑定主机厂、开拓细分场景)[86]
龙虎榜复盘丨AI医疗集体大涨,顶级游资锁仓“地天板”航天龙头股
选股宝· 2026-01-13 18:49
机构资金动向 - 今日机构龙虎榜上榜67只个股,净买入47只,净卖出20只 [1] - 当日机构买入金额前三的个股为中国卫星(6.79亿人民币)、用友网络(3日累计6.55亿人民币)、恒为科技(4.04亿人民币) [1] - 用友网络3日龙虎榜显示,3家机构净买入6.55亿人民币 [2] 个股表现与事件 - 中国卫星今日实时涨幅为+4.17%,龙虎榜买方机构1家,卖方机构0家 [2] - 用友网络今日实时涨幅为+7.87%,龙虎榜买方机构2家,卖方机构1家 [2] - 用友网络董事长透露,公司近两年在产品换代上投入大量研发,累计已达百亿人民币规模 [2] - 1月6日龙虎榜显示,游资席位中国银河证券大连黄河路(市场称为陈小群)大额买入鲁信创投2亿人民币 [3] AI for Science (AI4S) 行业前景 - AI for Science(AI4S)与大语言模型、具身智能并列为人工智能三大核心方向 [3] - AI4S旨在利用人工智能从海量科学数据中发现规律、加速科研进程,已从实验室阶段迈向产业化 [3] - 重点应用领域覆盖医药研发(如预测蛋白质功能、发现新靶点)、材料科学(设计新材料)、能源化学等 [3] - 2026年或可成为AI4S技术爆发元年 [3] AI医疗领域动态 - 英伟达与礼来制药宣布联合创新AI实验室,双方未来五年将向AI医药实验室投资至多10亿美元 [2] - 华福证券指出,AI应用端需求闭环方能持续支撑AI产业可持续发展 [3] - 当前AI医疗板块已跌破1月主升浪最低点,具备政策、基本面、事件催化条件 [3] - AI医疗应用“蚂蚁阿福”最新上线,其流量凸显了AI医疗的真实需求 [3] - AI“六小龙”中的智谱、miniMax在港股聆讯,意味着资本加速认证新阶段 [3] - 相关公司AI收入增长可见,商业化开启加速趋势 [3]
对话千寻智能韩峰涛:真正的机器人是生产力,不是展品和玩具
雷峰网· 2026-01-13 18:20
文章核心观点 - 千寻智能开源了其具身模型Spirit v1.5,该模型在RobotChallenge榜单中超越国际标杆Pi0.5,成为全球最强开源具身模型,标志着公司技术达到领先水平 [3] - 创始人韩峰涛判断,2026年将是具身智能行业的“GPT时刻”,模型能力将通过Scaling Law快速攀升,行业将进入大规模融资和快速发展阶段,类似于2023年的大语言模型 [6][44] - 具身智能发展的核心瓶颈在于数据,公司采取“模型与硬件并举”的全栈策略,通过自研硬件和自建近千人规模的数据工厂来采集高质量的真实数据,以驱动模型进化并启动数据飞轮 [6][36] 中国机器人行业发展阶段与现状 - 中国工业机器人市场占有率从2015年的约3%跃升至2024年的50%以上,国产化替代在2019年至2023年间快速完成 [13] - 中国机器人行业的发展可分为四个阶段:2010年前全进口、2010-2020年发展期、2020年后疫情助推国产占有率提升、2024年起进入以“大脑”(AI)为核心的具身智能竞争时代 [13][14] - 在当前的具身智能时代,中国公司与海外对手已处于齐头并进的状态,改变了以往在工业机器人和自动驾驶领域追赶的局面 [14][17] - 中国供应链的核心优势在于极快的迭代速度,硬件问题可在“24小时包邮区”内以天为单位解决,这为产品快速迭代提供了巨大优势 [15] 具身智能的时代机遇与公司战略 - 当前具身智能兴起的核心变量是AI技术的革命性进步,使得机器人的“大脑”真正可用,因此公司的核心命题是如何让具身模型进化 [9][20] - 公司认为具身智能的商业逻辑更接近“自动驾驶的新能源车”,必须同时掌握“灵魂”(软件模型)和“躯体”(硬件本体),只卖模型的商业模式目前基本不存在 [26] - 公司创业认知发生关键转变:从第一次创业“拿着锤子找钉子”(基于自身技能)转变为第二次创业“时代需要什么就干什么”(抓住AI与具身模型的核心机遇) [18] - 公司定位为“千寻智能”而非“千寻机器人”,强调其本质是AI公司,Embodied AI的核心是AI [10][18] 模型进展、能力衡量与商业化路径 - Spirit v1.5在移除实验室“温室”条件的RobotChallenge测试中,在30个桌面项目上取得了超过50%的任务成功率,对比Pi0.5的42.67% [6] - 公司用自动驾驶的“L级别”概念衡量具身模型进化:L0(基础工业机器人)、L1(能完成单一复杂任务如叠衣服)、L2(能完成一连串任务) [32] - 公司模型在2025年底处于约L1.8水平,预计2026年夏天可达L2水平 [32] - 真正的量产(指能“干活”的生产力机器人)预计在2026年底 [27] - 公司训练数据效率较高,完成叠衣服任务仅需100多小时数据,而国内竞对需要上千或大几百小时 [40] 数据的关键作用与采集策略 - 数据数量与质量决定模型质量,当前全球领先的具身模型公司(如PI与千寻)的真机数据总计仅约1万小时,而达到较好模型效果可能需要100万小时数据 [36][40] - 具身智能发展慢于大语言模型和自动驾驶,主要原因是缺乏类似互联网的现成数字资产,且没有“大脑”的机器人无法销售,导致数据飞轮难以启动 [9][37] - 公司解决方案是自建数据工厂,计划在2026年将采集工位从目前的四五十个增加超过10倍,并采用可穿戴设备让人在真实场景中“一边干活一边采数” [36][38] - 数据分为用于预训练的海量通用数据和用于微调的特定场景数据,后者部分将由客户使用公司提供的设备在其现场采集 [39] 硬件自研的逻辑与产品规划 - 自研硬件的核心目的是为模型提供更高质量、同构的真实数据,因为“模型跟硬件是绑定的”,联合设计、软硬一体效果最好 [6][23] - 硬件产品遵循“沿途下蛋”策略,基于当前成熟技术推出可量产的产品(如三指手),以支撑公司运营,同时为模型进化服务 [23] - 公司硬件研发聚焦上半身(一体化关节、手臂、感知系统、三指手),认为双腿对普通家用机器人意义不大,优先解决轮式底盘能到之处的任务 [43] - 公司目前团队约110人,其中模型与硬件团队各约40人 [43] 对2026年的行业展望与公司计划 - 2026年被预判为具身智能的“大年”,模型能力将开始快速进化,行业将出现大规模融资,类似2023年的大语言模型领域 [6][44] - 公司计划在2026年为冲击L2模型进行大规模融资 [44] - 行业竞争将聚焦于通用大脑,而竞争的关键在于数据 [35][36] - 2026年也将是模型“打榜”的年份,开源榜单测评将成为衡量模型能力的重要方式 [41]
AI应用投资机会梳理
2026-01-13 09:10
行业与公司 * **行业**:人工智能(AI)应用行业,特别是生成式AI、大语言模型(LLM)和多模态模型领域 [1] * **公司**:涉及多家国内外公司,包括: * **海外**:OpenAI、谷歌(Google)、Anthropic、迪士尼(Disney)、Stripe [1][2][3][8][21] * **港股/中概股**:阿里巴巴、快手、美图、富博集团、百度、智谱、Minimax、kimi、昆仑芯、蓝标、中文在线、天涯秀 [1][2][6][9][17] * **A股/游戏公司**:世纪华通、巨人网络、心动网络、完美世界、凯英投资、利欧、值得买、引力传媒、智文互联、阅文 [10][12][13][15][16][17] 核心观点与论据 AI行业发展趋势与市场动态 * **模型迭代加速**:大语言模型(LLM)迭代速度加快,2024年SOTA模型约半年更新一次,到2025年已提升至季度级别 [1][2] * **性能脉冲式提升**:模型性能通过范式革新实现脉冲式提升,例如GPT-3.5通过预训练、GPT-4通过后训练和强化学习带来显著能力飞跃 [2] * **新研究方向涌现**:在线学习或终身学习成为新方向,使模型能持续学习新知识 [1][3] * **多模态模型潜力巨大**:多模态模型处于早期阶段(相当于LLM的GPT-2.5水平),但未来跨越式发展潜力更大 [1][3] * **AI成为重要流量入口**:OpenAI的周活跃用户(WAU)在2025年底已接近10亿,预计到2026年底可能达到20亿,ChatGPT等已从小众流量池演变为可与谷歌搜索媲美的重要流量入口 [1][3] * **市场规模高速增长**:2025年AI市场规模约为200亿,且仍在高速增长 [12] * **迎来大规模资本化元年**:自2025年下半年起,国内AI投融资显著升温;智谱和Minimax已在港股上市,kimi、昆仑芯等计划上市;海外OpenAI和Anthropic也有上市计划,其中OpenAI目标估值高达1万亿美元 [2][9] 国内外市场差异与商业化 * **国内外付费习惯差异**:海外C端订阅模式(如ChatGPT)在国内较难推广,国内用户在某些方面付费意愿较低;B端应用在国内收费也存在困难 [1][4] * **国内潜在机会领域**:在教育等增值服务领域,国内用户仍表现出付费意愿,存在收入增长机会 [4][5] * **OpenAI商业化新举措**: * 大幅上修2026-2029年营收预期,特别是免费用户变现收入 [1][8] * 探索电商(上线Merchants功能,与Stripe合作)和广告(在回答中优先显示赞助内容)两种免费用户变现方式 [8] * 计划在2026年实现30亿美元的免费用户变现规模,到2029年提升至250亿美元 [1][8] 具体公司分析与投资机会 * **阿里巴巴**: * **AI应用**:2025年Q4成立千万事业群,推出的千问、灵光、蚂蚁阿福在2025年12月均进入国内AI原生应用TOP 10 [7] * **云计算业务**:发展稳健,是国内最完备的模型算力平台场景闭环综合性平台;收入增长引擎分为AI(挖掘国内存量客户需求)和出海(聚焦东南亚、中东市场)两部分 [2][19] * **自研芯片**:平头哥PPU有望放量,优化算力成本结构 [19] * **近期表现与前景**:2025年Q4电商侧(淘天、闪购)业绩不尽人意,但预期差已落地;云计算业务可对冲电商阶段性疲软;当前价格进入“击球区” [19][20] * **快手**: * **AI应用**:利用AI改进内容推荐算法;旗下多模态产品“可灵”处于全球第一梯队 [2][6][17] * **估值与前景**:当前PE仅13倍,主营业务稳健;可灵估值相对保守,2026年将受益于模型迭代的高流水预期及Minimax上市带来的估值范式修复;AI红利将内生到广告和电商转化漏斗中逐步兑现 [17][18] * **富博集团**: * **业务模式**:从事内容版权保护,约45%收入来自SaaS订阅服务(如迪士尼),约56%来自增值服务(监测二创视频盗版并参与广告分账) [21] * **增长逻辑**:AI多模态应用发展导致二创视频数量大幅增加,可监测活跃内容资产数量逐季度加速增长,将推动增值服务收入增速;作为第三方中立机构,在角色授权监测与盗版甄别方面价值凸显 [2][21] * **美图**: * **竞争优势**:凭借C端垂直应用对精细化需求的快速捕捉和迭代能力(如每月推新功能)占据优势,互联网巨头迭代周期长且不倾向于过度投入精细化布局 [6][22] * **挑战与应对**:生成式AI算法用于提升会员购买和付费渗透率;尽管面临巨头竞争,但其C端垂直应用产品仍具生存价值,影像多模态商业价值肯定,未受大模型更新迭代明显影响 [22][23] * **游戏行业**: * **AI应用现状**:多数游戏公司已在研发和发行中采用AI降本增效;但利用AI创造行业增量的原生游戏仍未完全实现;2026年腾讯、网易、米哈游等大厂新产品将AI作为核心玩法 [14] * **A股公司估值**:大部分头部A股游戏公司2022年PE估值仍不到20倍,估值水平未被高估 [15] * **值得关注的公司**: * **世纪华通**:出海产品数据稳中有升,新赛道产品流水环比增长较高;具备休闲游戏基因,出海空间巨大 [15][16] * **其他公司**:巨人网络、心动网络、完美世界、凯英投资均有表现良好或备受期待的产品 [16][17] AI应用发展方向 * **基于生成式模型优化(GEO)的AI营销**:利用生成式模型带来的新流量入口提供新营销方案,相关公司包括蓝标、利欧、值得买等 [10] * **AI陪伴**:如Minimax的“星野(Talkie)”、凯英投资的产品“易物(Eve)”,结合游戏化体系(抽卡、皮肤)商业上限很高 [10][11] * **AI加IP/AI漫剧**:结合IP与AI技术,带来新娱乐体验 [11] * **AI+动漫产业**:AI技术可提升中游动漫制作环节生产力,解决产能紧张问题,从而放大上游IP价值,阅文和中文在线等公司表现突出 [12][13] 其他重要内容 * **迪士尼与OpenAI合作**:迪士尼将200多个智能决策(角色)授权给Sora进行AI建模,体现了AI与顶级IP的结合趋势 [3][21] * **投资建议逻辑**:所提及的港股公司(阿里巴巴、快手、美图、富博)分别代表了垂直场景的AI多模态应用、全栈自研互联网巨头以及第三方内容版权机构,均是春季AI应用催化下值得关注的方向 [23]
刚刚,梁文锋署名开源“记忆”模块,DeepSeek V4更细节了
程序员的那些事· 2026-01-13 08:56
核心观点 - DeepSeek与北京大学合作发布新论文,提出了一种名为“条件记忆”的新稀疏化维度,并通过引入Engram模块来实现,旨在解决当前大语言模型缺乏原生知识查找机制的问题 [1][3][4] - Engram模块与现有的混合专家模型的条件计算形成互补,在等参数量和等FLOPs条件下,其性能显著优于纯MoE基线模型,并展现出在知识检索、通用推理及代码数学任务上的全面性能提升 [8][9][11] - 研究揭示了MoE与Engram之间的最优资源分配遵循U型扩展规律,并将Engram扩展至270亿参数规模进行验证,表明条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [10][11][13] 技术方案:Engram架构 - **设计目标与流程**:Engram模块旨在将静态模式存储与动态计算从Transformer主干网络中分离,其运行包含检索与融合两个阶段 [13][15] - **基于哈希的稀疏检索**:通过提取和压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量,为最大化语义密度,引入了词表投影将有效词表规模缩减约23% [15][16] - **上下文感知门控**:在检索后引入了上下文感知的门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以应对哈希冲突或词项多义性带来的噪声 [17][18] - **系统效率优化**:Engram的确定性检索机制支持参数存储与计算资源的解耦,在训练阶段采用模型并行将嵌入表分片,在推理阶段支持从主机内存异步预取嵌入向量以隐藏通信延迟 [19][21] - **多级缓存设计**:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持扩展到极大规模记忆容量 [22] 扩展规律与资源分配 - **核心研究问题**:研究旨在探究MoE与Engram之间的最优分配比例,以及在无限记忆范式下Engram自身的扩展行为 [24][25] - **U型扩展规律**:实验发现验证损失与分配比例ρ之间呈现一致的U形关系,纯MoE基准被证明是次优的,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能 [27][28] - **定量结果**:在总参数量约100亿的规模下,验证损失从纯MoE的1.7248改善到最优分配时的1.7109,最优分配点在不同规模间稳定在ρ ≈ 75%-80% [28] - **无限内存扩展**:在固定MoE主干上附加Engram表并增加槽数量,验证损失持续改善且遵循严格的幂律,表明更大的内存在不需要额外计算的情况下继续带来收益 [27][28] - **扩展效率**:Engram在相同的内存预算下比OverEncoding释放了更大的扩展潜力,验证了条件记忆作为稀疏容量独立、可扩展轴的作用 [29][30] 实验结果:模型性能 - **实验设置**:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,所有模型在包含2620亿token的语料库上预训练,激活参数量严格匹配 [34][35][36] - **整体性能对比**:在等训练计算预算下,所有稀疏变体均显著超越密集模型Dense-4B;在等参数量和等FLOPs条件下,Engram-27B持续改进MoE-27B基准 [37][38] - **知识任务提升**:Engram-27B在知识密集型任务上表现优异,例如MMLU准确率提升+3.0,CMMLU提升+4.0 [38] - **推理与代码数学任务提升**:在通用推理和代码数学任务上改进更为显著,例如BBH提升+5.0,ARC-Challenge提升+3.7,HumanEval提升+3.0,MATH提升+2.4 [11][38] - **更大规模扩展**:扩展到Engram-40B进一步减少了预训练损失,并提高了大多数基准测试的性能,表明扩展的记忆容量在当前token预算内尚未完全饱和 [39] 实验结果:长上下文能力 - **架构优势**:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了注意力容量,从而提升长文本性能 [41] - **超越注意力机制**:长文本性能与基础模型的通用建模能力内在耦合,并非仅由架构先验决定 [42] - **受控对比结果**:在控制基础模型能力的前提下,Engram模块表现出显著效率增益 [43][44] - **等损耗设置**:当预训练损失完全对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B,例如多查询NIAH准确率从84.2提升至97.0,变量跟踪从77.0提升至87.2 [45][46] - **等计算量设置**:在等计算预算下,Engram-27B在所有长文本评估指标上均实现顶尖性能 [46] 机制分析 - **有效深度增加**:分析表明,Engram能够将静态知识的重建负担从模型浅层剥离,从而有效加深网络用于复杂推理的有效深度 [11] - **注意力容量释放**:通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制的容量,使其更专注于全局上下文建模 [11] - **收敛速度分析**:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [45] - **表示对齐分析**:基于CKA的相似度热力图显示,Engram的浅层在功能上等效于MoE模型的深层,有效地增加了模型的深度 [45]