Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek-V4-带来哪些投资机会
2026-04-13 14:13
纪要涉及的行业或公司 * **行业**:人工智能(AI)产业链,涵盖大模型、算力(芯片、服务器、零部件)、AI应用[1][2][3][4] * **公司**: * **大模型厂商**:DeepSeek、智谱AI、MiniMax、Kimi、阶跃星辰、小米、OpenAI、Anthropic、Google、xAI、Meta[1][2][3][9][10][11][12][13] * **算力芯片厂商**:华为(升腾)、寒武纪、阿里巴巴(平头哥/PPU、昆仑芯)、海光信息、沐曦、英伟达[1][3][6][15][17][18] * **服务器与零部件厂商**:超聚变、华鲲振宇、神州数码、软通动力、烽火通信、宝德股份、华丰科技、意华股份、川润股份、通富微电、航天电器、光迅科技、华工科技、深南电路、紫光股份[6][20][21][22] * **AI应用厂商**:税友股份、金山办公、鼎捷软件、汉得信息、泛微网络[5] * **其他**:字节跳动、中芯国际[3][15] 核心观点和论据 大模型投资与估值框架 * **两阶段估值法**:2026-2028年,因API收入高速增长(预计翻倍以上)及To B业务渗透加速,采用年化收入(ARR)倍数估值,参考OpenAI的50-60倍及Anthropic的40多倍[1][2];2028年后,收入增速放缓但毛利率提升(预计达70%以上),转向采用毛利倍数估值,毛利增速越高则估值倍数越高[1][2] * **模型能力与定价**:模型智力水平决定token定价能力,高性价比token可扩大使用量,两者共同影响毛利率[2] * **投资观点**:中期看多大模型和算力,战略性回避应用层;若DeepSeek-V4发布,应用领域可能存在短期交易性机会[2][5] 算力市场趋势与催化剂 * **当前阶段**:处于2025年第二季度开始的、由全球推理侧Token需求指数级增长引发的算力主升浪尾声,多数环节已轮动涨价,短期波动大[3] * **未来催化剂**:第二波算力主升浪的核心催化剂是市场明确感知到全球总Token需求再次出现指数级增长[1][3] * **需求侧证据**:字节跳动截至2026年3月底的日均Token消耗量超过120万亿,月均超过3,600万亿,较2025年底的月均1,500万亿增长一倍以上[3];H100 GPU租赁价格近期持续上涨[3] * **潜在超预期增量**:AI Coding加速渗透是明确趋势,而Agent在企业端的爆发将为Token需求带来巨大增量,例如“龙虾”项目已导致谷歌、Anthropic等厂商限制其订阅账户使用额度[3] DeepSeek-V4的预期与影响 * **发布时间**:市场预期在2026年4月发布,已有灰度测试,时间点临近[4][14] * **性能预期**:灰度测试体感显示,性能可能与Codex-3.6持平,代码能力和多轮检索提升显著[4] * **技术路线**:可能采用2026年初提出的Ingram算法(存储换计算),具备多模态理解能力(如图片),但短期不涉足视频生成[14];为适配国产算力,已将训练语言从CUDA和OpenAI Triton迁移至北大开源的TELANG[15] * **投资机会**:主要带来国产算力和AI应用两大类机会[5] * **国产算力适配的不确定性**:关键不确定性在于适配是基于训练与推理的全栈适配,还是仅限于推理端;全栈适配将引发训练需求超预期增长,极大惠及国产芯片厂商;仅推理端适配则影响相对较弱,受益逻辑转变为通过加速AI应用渗透带动推理需求[5] 国产算力产业链分析 * **利好传导顺序**:芯片环节最直接受益 → 服务器整机及板卡放量 → 光模块、液冷、连接器等零部件 → 下游IDC → 反向传导至上游芯片制造与封装[6] * **国产芯片竞争格局**: * **市场份额(2025年)**:英伟达份额从2024年的67%降至55%;国产厂商份额排序大致为:华为、阿里巴巴平头哥、昆仑芯、寒武纪、海光信息、沐曦[6] * **性价比排名(理论/实际)**:阿里巴巴平头哥PPU > 华为升腾950 > 寒武纪690,均已超过英伟达H20水平[1][18][19];实际集群测试数据显示,PPU性价比第一,升腾950约比PPU低20%,寒武纪690又比升腾950低约10%[19][20][21] * **性能参数差异**:寒武纪思元690在FP8精度下算力达1.4 PFLOPS,高于华为升腾950的1 PFLOPS;但华为在片上互联带宽(UV-Mesh协议)方面有显著优势[16][17] * **华为升腾产业链**: * **服务器梯队**:第一梯队(超聚变、华鲲振宇)、第二梯队(神州数码、软通动力)、第三梯队(烽火通信、宝德股份)[6] * **零部件**:连接器(华丰科技、意华股份)、液冷模组(川润股份)、封装(通富微电)[6] * **华为升腾950 Pro核心信息**: * **2026年出货目标**:升腾芯片总目标100万颗,其中升腾910预计35万颗,升腾950预计65万片[15] * **性能参数**:单卡FP8算力1 PFLOPS,支持FP4精度(算力2 PFLOPS)[15] * **内存方案**:精华LPDDR(约5万元)、长鑫存储HBM2(带宽1.6TB/s,5万元以上)、海力士HBM2E主流版(96GB显存,带宽2TB/s,7.2万至7.5万元)[15] * **测试与产能**:已在互联网厂商进行万卡规模测试;中芯国际NPU+2产线月产能6,000-7,000片,年底预计达8,000-9,000片,基本支持年度出货目标[15] * **产品路线图**:2026年Q4推出升腾950DT(低成本,采用长鑫HBM3,带宽2TB/s,定价8-10万元);2027年Q4推出升腾960(FP8算力提升至4 PFLOPS);2028年Q4推出升腾970[16] AI应用投资策略 * **2026年核心策略**:寻找营收与利润双双提速的标的[1][4] * **利润端**:软件公司利用AI技术进行内部降本增效是基本底线,国产模型代码能力提升将改善研发侧效率,率先体现在利润端[4] * **营收端**:反映应用厂商在客户端业务机会的扩张能力[4] * **当前市场状态**:A股AI应用标的普遍处于底部,筹码结构良好,DeepSeek-V4发布可能催化短期普涨行情,但更多是事件性催化或交易性机会[5] 其他重要产业链动态 * **算力配置建议**:中期优先顺序为GPU > 存储 > 互联;液冷和IDC适合小仓位博取弹性[4] * **CPU涨价预期**:2026年3月以来,英特尔和AMD消费级CPU已出现10%至15%的价格上涨,交货周期延长,涨价预期增强[4][7] * **Transformer架构稳定性**:从英伟达GTC大会信息看,硬件深度定制(如NVLink 7.2与Groq 3 LPX合作)、新增“Agentic Scaling”曲线、学术界持续沿用等三方面佐证了其未来一段时间的稳定性[7][8] * **海外大模型动态**: * **Anthropic**:预计2026年10月左右上市;新模型“Mythos”内部测试中,性能强于Opus 4.6但成本高;面临算力不足压力,已限制Harness AI系统带来的API调用激增[9] * **OpenAI**:处于短期战略收缩期,关停Sora并推迟应用商店计划;广告业务年化收入约1亿美金;新基座模型“SPUD”预训练已完成,预计Q2发布[10] * **Google**:模型更新放缓,最新为Gemma 4系列(开源,最小2.54GB可在手机端离线运行);预计2026年5月I/O大会有重大版本发布[10] * **xAI**:初始联合创始人基本离职;Grok-5模型推迟,Q2发布可能性较大;2月被SpaceX收购,合并后估值2,500亿美元[11] * **国内大模型竞争格局**: * **技术路径**:趋于一致,普遍采用混合专家架构,激活参数量级在300亿至400亿之间,激活率约3%至5%,上下文长度支持到200K左右[12] * **定价策略**:与海外数值相近,主要差异在汇率,例如智谱AI GLM模型(32K token以上)定价为每百万token 22元人民币,Anthropic同类服务为25美元[12] * **厂商特点**:小米技术路线紧跟主流;智谱AI在代码生成领域有优势;MiniMax模型参数较小但强化了Agent和工具调用,性价比高;Kimi专注于提升训练稳定性与效率;阶跃星辰产品线覆盖全面,可能成为国内第三家在港股上市的大模型公司(一级市场估值约90亿美元)[12][13] 其他重要但可能被忽略的内容 * **芯片集群性能评估方法**:可通过设定基准场景(如模型DeepSeek-V2,总参数量671B,激活37B,批处理大小32),综合单卡算力(MFU)和显存带宽(MBU)两个瓶颈,计算理论吞吐量来比较不同AI芯片在集群中的实际表现[17] * **配套环节投资机会**:高速连接器领域关注航天电器(已通过测试,招标结果预计2026年5月初落地);光互联领域关注光迅科技、华工科技;另可关注升腾PCB相关的深南电路及交换机卡标的紫光股份[20][21][22] * **国内模型厂商上市进展**:阶跃星辰可能成为国内第三家在港股上市的大模型公司,预计年中可能提交上市申请[13] * **华为升腾产品形态**:预计2026年向互联网大厂出货仍以单卡形式为主,因大厂倾向采用自家超级节点方案;官方虽会推出384卡集群形态,但出货量预计不大[16]
LPG crisis: Madhya Pradesh traders body seek limited gas supply to prevent shutdown of hotels, eateries
The Economic Times· 2026-03-14 13:51
事件核心观点 - 印度博帕尔的酒店餐饮行业因商业液化石油气供应中断而面临全面停业风险 印度全贸易商联合会呼吁政府立即恢复有限供应 以避免该行业崩溃并保障城市食品供应系统 [9] 事件背景与原因 - 西亚冲突导致霍尔木兹海峡关闭 影响了原油和石油产品的供应 进而引发了印度的液化石油气短缺 [2][9] - 液化石油气供应优先保障医院等基本服务 导致酒店餐饮行业的商业用气被中断 [8][9] 行业现状与影响 - 博帕尔的整个酒店和餐饮服务行业可能在几天内面临关闭 威胁数千个生计 并扰乱市民的日常食品服务 [1][5][9] - 行业经营者已订购电磁炉作为替代方案 但设备需要7到10天才能到货 且餐厅需要时间提升电力容量以运行新设备 因此该方案不具即时可行性 [6][9] - 政府建议改用柴火烹饪的方案不可行 因为大多数酒店和餐厅的厨房是为现代燃气系统设计的 从技术和安全卫生角度均不适用 [6][7][9] 行业诉求与建议 - 印度全贸易商联合会要求立即恢复商业液化石油气钢瓶的有限供应 以确保酒店、餐厅和甜品店不会完全关闭 [8][9] - 联合会呼吁当局采取务实态度 并将酒店餐饮行业视为与新冠疫情时期类似的基本服务 给予类似的有限救济 [2][4][9]
DeepSeek发布下一代技术,北大实习生立功
36氪· 2026-02-27 17:09
文章核心观点 - DeepSeek发布名为DualPath的全新推理系统方案,旨在解决大语言模型在智能体应用场景下因多轮、短追加交互导致的KV缓存存储I/O瓶颈 [1] - 该方案通过引入从存储直通解码引擎的双路径加载机制,聚合所有存储网卡带宽,重新分配网络负载,基本消除了KV缓存的I/O开销 [1][5] - 在真实测试中,该系统将离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,并在1152张GPU上验证了近线性扩展能力 [1][17] 技术背景与问题 - **智能体I/O瓶颈凸显**:随着智能体应用普及,多轮推理导致上下文跨轮累积到极长长度,由于KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素 [3] - **传统设计成本高昂**:现有系统采用预填充-解码分离和外部KV缓存存储架构,但预填充引擎存储网卡带宽持续饱和,解码引擎带宽大量闲置,这种不平衡暴露了根本性低效,单纯增加预填充端带宽成本高昂 [3] DualPath解决方案架构 - **核心洞察**:打破“KV缓存加载必须以预填充为中心”的传统设计,增加存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎 [5] - **三大核心组件**: - **推理引擎**:作为基础执行单元,每个引擎管理一个GPU,明确区分为预填充引擎和解码引擎 [6] - **流量管理器**:内嵌于每个引擎,统筹所有数据移动,采用以计算网卡为中心的流量管理策略,确保KV缓存流量不干扰延迟敏感的模型集体通信 [6] - **请求调度器**:作为中央决策单元,接收客户端请求并智能分发,动态决策每条请求采用传统路径还是新型路径,实现双路径间的流量均衡与全局负载优化 [7] 实现细节与挑战应对 - **具体实现**:在每个引擎预留DRAM作为缓冲区,数据传输采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠 [9] - **系统无新增瓶颈验证**:通过建立流量模型进行系统性分析,在典型配置及可行的预填充/解码节点比例区间内,计算网卡、PCIe以及DRAM均不会成为瓶颈 [9][10] - **落地面临的三大挑战及对策**: - **细粒度数据传输**:通过分层流式执行解决 [11] - **流量隔离**:采用以计算网卡为中心的流量管理机制,利用硬件QoS能力进行优先级隔离,例如在InfiniBand中将模型推理通信映射到高优先级虚拟通道,KV传输映射到低优先级通道 [11][12] - **动态负载均衡**:采用两级自适应调度机制,在引擎间和引擎内实现负载均衡,避免资源过载 [12] 性能评估结果 - **吞吐量显著提升**:在DeepSeek V3.2 660B模型上,DualPath相较于内部基线推理框架最高实现1.87倍加速,性能接近假设零I/O开销的理论上限 [13] - **在线服务表现优异**:在智能体请求到达速率上显著优于基线,在DS27B和DS660B模型上分别达到1.67倍和2.25倍提升 [15] - **负载均衡改善**:调度算法将存储网卡负载均衡指标从1.53优化至1.18,并将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡 [17] - **大规模可扩展性验证**:离线推理从2P4D扩展到48P96D实现近线性扩展,任务完成时间基本保持一致;在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍 [1][17][18] 行业影响与未来方向 - **行业影响**:该方案为业界处理大规模智能体推理任务提供了新的思路,是解决KV缓存I/O压力的一个值得关注的方向 [19] - **未来方向**:研究团队指出,下一步需要研究更自适应和更灵活的并行度和预填充/解码比例配置方法,例如模拟器或在线调整机制 [19]
DeepSeek 有新消息!
每日经济新闻· 2026-02-27 17:06
论文核心成果 - DeepSeek联合北大、清华发布论文,研究方向为提升大模型在实际应用中的推理速度,旨在为复杂的AI智能体提供高效的底层系统解决方案[3] - 论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型推理性能进行优化[3] - 该系统通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍[3] 技术背景与问题 - 大模型正从单轮对话机器人和独立推理模型,快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统[3] - 应用范式的转变推动大模型推理工作负载发生重大变革:从传统的人类-大模型交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮[3] - 在智能体任务中,上下文会跨轮次累积,最终长度可能达到极值,此时模型需要频繁从硬盘读取历史上下文的KV-Cache[3] - 现有系统中,负责预处理的引擎网卡带宽被占满,而负责生成内容的解码引擎网卡带宽基本闲置,导致整个系统速度受限[3] 解决方案与价值 - DualPath系统针对智能体工作负载重新设计KV-Cache加载逻辑,解决大模型做智能体任务时速度被“数据读取”拖慢的核心问题[4] - 该方案的核心是把闲置的带宽资源利用起来,相当于给数据读取“多开了一条高速路”,从而实现速度的大幅提升[4] - 这一论文成果延续了DeepSeek一贯的风格,在工程化层面将性能优化推向极致[5] 市场传闻与产品动态 - 关于DeepSeek V4的发布时间,市场传闻从最初传闻的2月春节前后,到外媒最新报道的“最快下周”,再到业内人士预测的3月前后[5] - 外网有网友爆料称,DeepSeek正在测试V4 Lite模型,代号为“Sealion-lite”,上下文窗口为100万tokens,并原生支持多模态推理[5] - 有消息提及,DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,确保模型在硬件上高效运行,但英伟达等厂商尚未获得类似权限[5] - 2月12日晚,多名用户反馈DeepSeek在网页端和APP端进行了版本更新,支持最高1M(百万)Token的上下文长度,而去年8月发布的DeepSeek V3.1上下文长度拓展至128K[6] 用户反馈与市场环境 - DeepSeek被大量用户吐槽风格突变,“变冷淡”,从原本细腻共情变为不称昵称、文风生硬,共情能力下降,相关话题于2月12日晚登上微博热搜[6] - 作为较早入局国内大模型赛道的玩家,DeepSeek凭借早期技术积累和差异化定位,曾在AI助手市场占据先发优势[6] - 随着字节跳动豆包、百度文心一言、阿里通义千问等巨头产品加速迭代,以及ChatGPT、Claude等海外强敌持续施压,国内AI助手赛道已进入白热化竞争阶段[6]
DeepSeek联合北大、清华发布新论文
财经网· 2026-02-27 16:04
公司技术进展 - DeepSeek团队联合北京大学、清华大学于2月27日发布了一篇聚焦于推理速度的学术论文 [1] - 论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大语言模型推理性能进行优化 [1] - 该系统通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载 [1] - 该技术将离线推理吞吐量最高提升1.87倍 [1] - 该技术使在线服务的每秒智能体运行数平均提升1.96倍 [1] 行业技术趋势 - 大语言模型推理性能,特别是在智能体工作负载下的优化,是当前重要的研究方向 [1] - 通过优化KV-Cache等底层机制来提升系统效率是行业内的关键技术路径之一 [1]
DeepSeek又一论文上新
第一财经资讯· 2026-02-27 15:58
公司研究:DeepSeek最新动态 - 公司团队联合北京大学、清华大学发布了一篇关于提升大模型推理速度的学术论文,而非发布备受期待的新一代旗舰模型DeepSeek V4 [2][4] - 论文提出名为DualPath的创新推理系统,通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,以优化智能体工作负载下的大模型推理性能 [4] - 该系统将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍 [4] - 该研究旨在解决大模型作为智能体执行任务时,因频繁从硬盘读取历史上下文的KV-Cache而导致速度被“数据读取”拖慢的核心问题,通过利用闲置的带宽资源来提升速度 [4][5] - 有行业观点认为,此类工程优化在降低成本、降低token费用方面具有价值,是AI走向大规模使用的关键 [6] - 关于DeepSeek V4的发布时间传闻多变,从最初传闻的2月春节前后,到外媒报道的“最快下周”,再到业内人士预测的3月前后 [6] - 近期有网络爆料称,公司正在测试代号为“Sealion-lite”的V4 Lite模型,上下文窗口为100万tokens,并原生支持多模态推理 [6] - 有消息提及,公司已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,但英伟达等厂商尚未获得类似权限 [6] - 面对市场传闻,公司保持一贯沉默,未进行任何回应 [6] 行业趋势:大模型应用演进与系统优化 - 大模型正从单轮对话机器人和独立推理模型,快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统 [4] - 应用范式的转变推动大模型推理工作负载发生重大变革:从传统的人类-大模型交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮 [4] - 在智能体场景下,上下文会跨轮次累积,最终长度可能达到极值,导致模型需要频繁从硬盘读取历史上下文的KV-Cache,而非进行大量计算 [4] - 现有推理系统中,负责预处理的引擎网卡带宽被占满,而负责生成内容的解码引擎网卡带宽基本闲置,导致整个系统速度受限 [4] - 部分投资机构担忧,新一代模型的发布可能如同去年版本发布时那样,引发市场的剧烈震荡 [6]
DeepSeek又一论文上新!新模型V4更近了?
第一财经· 2026-02-27 15:01
论文核心成果 - 研究核心为解决大模型在智能体应用场景下的推理速度瓶颈,通过优化底层系统提升效率 [3] - 提出名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型推理性能进行优化 [3] - 系统通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,将闲置的带宽资源利用起来 [4] 性能提升数据 - DualPath系统将离线推理吞吐量最高提升1.87倍 [3] - 系统使在线服务的每秒智能体运行数平均提升1.96倍 [3] 行业应用背景与挑战 - 大模型正从单轮对话机器人快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统 [3] - 应用范式转变推动推理负载从传统人机交互转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮 [3] - 智能体场景下上下文跨轮次累积,长度可达极值,导致系统频繁从硬盘读取历史上下文的KV-Cache [3] - 现有系统瓶颈在于负责预处理引擎的网卡带宽被占满,而负责生成内容的解码引擎网卡带宽闲置 [3] 技术方案价值 - 解决大模型执行智能体任务时速度被“数据读取”拖慢的核心问题 [4] - 工程化层面的极致性能优化,有助于降低AI使用成本,推动AI走向大规模应用 [5] 市场动态与传闻 - 外界更关注DeepSeek新一代旗舰模型DeepSeek V4的发布,市场传闻发布时间几经更迭,从2月春节前后到“最快下周”,再到3月前后 [5] - 有外网爆料称DeepSeek正在测试代号为“Sealion-lite”的V4 Lite模型,上下文窗口为100万tokens,并原生支持多模态推理 [5] - 有消息提及DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权,以支持其优化处理器软件,但英伟达等厂商尚未获得类似权限 [5] - 面对传闻,公司保持一贯沉默,未进行任何回应 [6] - 市场已进入“严阵以待”状态,部分投资机构担忧新一代模型发布可能引发市场剧烈震荡 [6]
【大涨解读】华为产业链:华为加码AI编程,DeepSeek也有望率先适配国产芯片,昇腾有望成为AI算力“第二选择”
选股宝· 2026-02-27 11:12
行情表现 - 2月27日,华为产业链相关股票大涨,华胜天成实现2连板,格尔软件、新炬网络、拓维信息等多只股票涨停 [1] 核心事件:华为发布AI新产品与生态进展 - 2月26日,华为云码道公测版发布,提供集代码大模型、IDE、自主开发模式于一体的智能编码解决方案,覆盖多类AI Coding技术,并接入GLM-5.0、DeepSeek-V3.2及华为自研模型,包含鸿蒙专属模型 [4] - 同日,DeepSeekV4Lite模型测试效果大幅提升,支持1百万(1M)上下文及原生多模态,首批示例传播广泛,目前正由华为等芯片厂商进行测试 [4] - 2月24日,华为董事长梁华表示,已有43个业界主流大模型基于昇腾进行预训练,超过200个开源模型适配了昇腾生态,并推动了超过6000个解决方案落地 [4] 行业趋势与市场空间 - AI编程通过大模型赋能,正重塑核心生产力方式,其价值体现在提升软件开发效率与质量、降低技术门槛以及加速项目迭代周期 [4][5] - 大模型编程能力显著提升,正推动AI编程工具从Copilot(辅助)模式向Agent(智能体)模式演进 [5] - 根据GrandViewHorizon的数据,2024年全球AI代码工具市场价值为61亿美元,预计到2030年将达到260亿美元 [5] - 国产AI模型公司与国产AI芯片企业深度耦合已成趋势,例如DeepSeek-V3.2-Exp发布时,华为昇腾实现了Day0支持,并基于vLLM/SGLang等推理框架完成适配与部署 [5] 技术进展与产品规划 - 华为昇腾芯片计划在未来三年推出多个系列产品:昇腾950PR/950DT计划于2026年一季度上市,昇腾960计划于2026年四季度上市,昇腾970计划于2027年四季度上市,目标是以每年算力翻番的速度持续提升性能 [5] - 在超节点方面,华为发布的384超节点,在多项关键指标上实现了对英伟达旗舰产品GB200 NVL72的超越 [6] - 华为昇腾硬件使能软件层CANN已全面开源开放,其计算架构可对标英伟达CUDA核心软件层,旨在通过软硬件对标,成为全球AI算力的第二选择 [6]
打破惯例!DeepSeek V4优先适配国产芯片,云计算ETF(159890)盘中拉升获资金抢筹超6600万
搜狐财经· 2026-02-27 10:46
市场表现 - 2月27日,国产算力链相关板块表现强势,云计算ETF(159890)开盘拉升涨超1%,盘中涨幅为0.74% [1] - 相关成份股表现活跃,拓维信息强势封涨停板,云天励飞大涨13%,网宿科技、润和软件涨超6%,拓尔思、光环新网、汉得信息、中国软件等多股跟涨 [1] - 云计算ETF(159890)盘中净流入超6600万元,近5日累计获净申购约5890万元,规模累破前高 [1] - 截至发稿,云计算ETF(159890)报价为1.898元,当日上涨0.014元,涨幅0.74% [2] - 该ETF近120日涨幅为10.93%,近250日涨幅为38.64%,但近5日和20日分别下跌1.20%和1.91% [2] 核心催化事件 - DeepSeek最快或于下周发布V4“海狮轻型版”,支持100万token,原生具备多模态处理能力 [3] - DeepSeek V4打破了“向头部芯片商开放预发布测试”的行业惯例,未向英伟达等海外芯片龙头提供访问权限,而是优先向国内算力供应商开放优化,给予数周时间进行底层适配与优化 [3] - 此次V4以国产芯片为基准原生适配,标志着国产算力产业链从过去的“可用”正式走向“规模商用”,有望扭转国产芯片“有算力无生态”的困境 [3] 行业需求与趋势 - 2026年春节期间,国产大模型token调用量井喷,截至2月22日此前一周的全球大模型token用量中,前三甲均为国产大模型 [4] - token的爆发式增长,本质上反映出AI推理需求的指数级扩容 [4] - 国产算力凭借着成本优势及不断完善的生态,有望在基础设施层逐步占据主导 [4] - 春节前后大模型行业发生较大变革,在新模型发布、AI应用深化与模型定价都发生了事件级变化 [4] - 算力涨价成为新迹象,凸显算力供应瓶颈,算力产业链有望持续受益 [4] 产品结构与投资机会 - 云计算ETF(159890)跟踪中证云计算与大数据主题指数,持仓兼顾AI算力(41%)与AI应用(32%)两大核心环节,人工智能+含量为41% [5] - 该指数前十大重仓股包括科大讯飞(权重9.55%)、润泽科技(6.19%)、金山办公(5.17%)、浪潮信息(4.52%)、中际旭创(4.51%)、新易盛(4.28%)、中科曙光(4.08%)、紫光股份(3.82%)、网宿科技(3.60%)和恒生电子(3.35%)等软硬件龙头 [5][6] - 由DeepSeek引领的国产算力生态重构浪潮,有望推动产业链从“被动适配”走向“主动定义” [6] - 投资者或可借道云计算ETF(159890)系统布局国产算力与AI应用的协同发展机遇 [6]
DeepSeek新论文剧透V4新框架,用闲置网卡加速智能体推理性能,打破PD分离瓶颈
36氪· 2026-02-27 10:29
核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架,旨在解决大模型长文本推理中的I/O瓶颈问题,通过创新的双路径加载和全局资源池化技术,显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式,即KV-Cache的加载不必以预填充引擎为中心,可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式,引入了“存储至解码”的第二条路径,通过利用解码引擎闲置的存储网卡带宽,并配合高速计算网络传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上,系统包含预填充引擎、解码引擎、流量管理器和中央调度器,中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中,DualPath表现惊人:离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下,首字延迟大幅优化,而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明,该框架显著降低了首字延迟,并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中,因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时,推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中,所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和,而解码引擎的存储网卡闲置,造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长,加剧了I/O限制,印证了“计算是免费的,但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径,并利用虚拟层技术为推理通信预留99%带宽,确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器,监控每个节点的磁盘队列长度和Token数,优先将任务分配给I/O压力小且计算负载轻的节点,从根本上避免单点拥塞[14] - 通过层级流式处理,在预填充引擎和解码引擎上分配少量DRAM缓冲区,并设计了精细的数据流,以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生,师从金鑫教授,研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统,该系统服务于十亿级用户,并与VLLM等开源社区紧密合作贡献工业级优化[22]