Workflow
长上下文推理
icon
搜索文档
翻完DeepSeek报告,我们发现了中国AI的默契
机器之心· 2026-04-25 16:40
文章核心观点 - 中国两家AI公司DeepSeek和Kimi在技术发展上呈现出一种“竞合”关系,通过频繁的技术“偶遇”与相互借鉴,共同推动了中国大模型技术的快速进步,并构建了强大的开源基础设施 [3][4][5][8] - DeepSeek和Kimi不仅成功迈入万亿参数俱乐部并选择开源,还通过技术共享和生态建设,显著降低了企业部署大模型的门槛,并成为国际芯片厂商展示性能的标杆,推动了中国AI产业格局的形成 [2][21][22][28] 技术协同与相互借鉴 - **注意力机制共享**:DeepSeek在V3中首创的MLA注意力机制被Kimi K2采用,该机制通过低秩压缩技术减少显存占用,使长上下文推理成为可能 [8][9] - **优化器技术跟进**:Kimi在480亿参数的Moonlight模型上验证了Muon二阶优化器,并于2025年7月首次在万亿参数Kimi K2中大规模应用;DeepSeek V4随后也跟进了Muon优化器技术,提升了训练效率的稳定性 [12] - **架构对比**:Kimi K2与DeepSeek-V3架构相似但规模更大,Kimi K2总参数量为1.04T,比DeepSeek-V3的671B高出54%,但激活参数量为32.6B,比后者低13% [11] 技术路线的差异化探索 - **残差连接方案**:DeepSeek V4引入了mHC残差连接,提高了梯度流动效率,训练效率提升约30%;Kimi则提出了Attention Residuals(注意力残差)来优化信息流传递效率,获得了行业领袖的广泛认可 [14][16][17] - **长上下文推理路径**:为解决长上下文成本问题,DeepSeek选择了**稀疏注意力**方案以降低计算量;Kimi则推出了**线性注意力**架构,将计算复杂度从O(n²)降至O(n),从理论上大幅降低成本 [20][24] 产业影响与生态建设 - **开源与成本革命**:DeepSeek和Kimi将万亿参数模型全部开源,使得企业私有化部署成本降至原来的1/10,让中小企业能在自有服务器上运行万亿模型成为现实 [21][22] - **生态形成与国际认可**:在OpenRouter平台上,两家公司的API调用量稳居中国前两名;Kimi被海外编程工具接入,DeepSeek被日本乐天集团包装成Rakuten AI 3.0;Meta和英伟达均将两家公司的模型作为性能对比的标杆 [22][25][28] - **国产芯片适配**:DeepSeek V4深度适配华为昇腾芯片;Kimi的Prefill-as-a-Service方案提出跨数据中心异构硬件推理框架,实测吞吐量提升54%,首token延迟降低64%,为国产芯片进入推理链条提供了切入口 [27][29] 公司背景与行业地位 - **创始人背景**:DeepSeek创始人梁文锋和Kimi创始人杨植麟均来自广东,是技术的狂热信徒,也被视为中国AI的国家队代表 [4][31][32] - **发展速度与定位**:两家公司均于2023年起步,以极快速度成为百亿美金估值的“十角兽”,并保持精简而顶尖的人才配置;DeepSeek以“思维链”技术闻名,Kimi则在国内引领了“智能体”的落地 [31][32] - **行业意义**:两家公司的技术互通与开源生态,展现了中国AI发展的真正底气在于技术火花的碰撞与互利共生,而非单打独斗,共同开启了中国大模型的“万亿级航海时代” [8][32][33]
2倍提速!KV缓存压缩不只看重要性,上交大团队让模型推理「又快又稳」 | ICLR'26
量子位· 2026-03-31 09:53
行业技术趋势:长上下文推理与KV缓存压缩 - 长上下文推理已成为视觉语言模型和大语言模型的默认形态,但推理端的KV缓存是关键的“隐形天花板”[1] - 随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而压制模型吞吐量[3] - KV缓存压缩成为解决上述问题的必要工程选项,但现有方法在压缩时存在“越压越不稳”的风险[5] 核心问题发现:KV缓存的异构冗余性 - 上海交通大学EPIC Lab的研究团队指出,现有压缩方法大多只优化“重要性”,而忽略了多模态KV中更强的“语义冗余”[5] - 当一批高度相似的KV被保留时,它们不会线性叠加信息量,反而会挤占预算、压缩语义覆盖面,导致模型稳定性下降[5] - 研究发现,视觉-语言输入下的KV相似度分布整体右移,意味着语义相近/重复的内容更多,冗余性更强[8] - 同一模型内部不同注意力头的冗余水平差异巨大,存在明显的“分工”:有些头偏向捕捉局部重复模式(高冗余),有些头承载更全局稀疏的信息(低冗余)[10] - 这种“异构头部冗余性差异”在纯文本与视觉-语言输入下呈现高度一致的结构性模式[12] 技术解决方案:MixKV方法 - MixKV的核心目标是升级“打分器”,在保留Top-K选取主流程的前提下,让保留下来的KV同时具备“重要性”和“多样性”,以减少覆盖面塌陷[13] - 方法由“两步打分+一个自适应混合”组成:重要性打分融合了窗口内注意力信号与KV本身强度信号;多样性打分鼓励挑选互不相似的KV;最后根据每个头的冗余度自适应混合两者权重[14][15][16] - 该方法通过在线估计每个头的冗余度,实现细粒度优化:冗余越高越强调多样性,冗余越低越强调重要性[16] - 加入多样性并进行头级混合后,保留的KV分布更接近完整KV的整体分布,能够覆盖更多原本会被遗漏的信息区域[23] 多模态理解性能表现 - 在LLaVA-NeXT-Mistral-7B模型上,MixKV在多个图像理解基准上带来一致增益。例如,在DocVQA任务上,当KV预算为256时,相比SnapKV基线提升2.9个百分点;在OCRBench任务上提升4.9个百分点[28] - 在InternVL3-8B模型上,MixKV同样带来稳定提升。例如,在DocVQA任务上,当KV预算为128时,相比SnapKV基线提升0.8个百分点[28] - 在Qwen2-VL-7B-Instruct模型上,MixKV提升显著。例如,在DocVQA任务上,当KV预算为256时,相比SnapKV基线提升2.5个百分点;在OCRBench任务上提升3.6个百分点[28] - 在更大规模的InternVL3-38B模型上,MixKV展现出良好的可扩展性。例如,在DocVQA任务上,当KV预算为128时,相比SnapKV基线提升4.6个百分点[33] - 在MoE架构的Qwen3-VL-30B-A3B-Instruct模型上,MixKV同样有效。例如,在OCRBench任务上,当KV预算为64时,相比SnapKV基线提升13.6个百分点[35] 长文本理解性能表现 - 在纯文本长上下文任务上,MixKV同样带来一致增益,表明该方法对LLM长文本推理同样适用[29] - 在Mistral-7B-Instruct-v0.2模型上,当KV预算为1024时,MixKV在多个任务上提升基线表现。例如,在Single-Doc QA任务上,相比SnapKV基线提升0.57个百分点[30] - 在Llama-3.1-8B-Instruct模型上,MixKV也表现出稳定的改进。例如,在KV预算为512的设置下,相比SnapKV基线在多个任务上获得提升[30] GUI定位任务性能表现 - 在GUI定位任务上,MixKV在多个子场景均实现提升。在Qwen2.5-VL-7B-Instruct模型上,使用SnapKV作为基线,在两档预算(128和64)下,整体平均增益分别为7.9和8.0[37] - 具体到子任务,例如在“Mobile Text”场景下,当KV预算为128时,MixKV相比SnapKV基线提升21.1个百分点[38] 效率与可扩展性分析 - 在极致压缩条件下,MixKV能显著降低模型推理延迟与峰值显存占用[41] - 实验结果表明,MixKV不仅能在多模态理解、GUI定位、长文本理解等任务上带来一致性能收益,同时还能带来可观的效率改善,如推理提速与显存下降[42]
DeepSeek更新后被吐槽变冷变傻:比20年前的青春伤感文学还让人尴尬!业内人士:这一版本类似于极速版,牺牲质量换速度
每日经济新闻· 2026-02-13 00:42
公司产品更新与性能 - 公司于2月11日对其旗舰模型进行了灰度测试,支持最高1M(百万)Token的上下文长度,相比去年8月发布的V3.1版本支持的128K有大幅提升 [1] - 实测显示,模型可一次性处理超长文本,例如能识别并处理超过24万个token的《简爱》小说文档 [1] - 此次更新版本被部分业内人士解读为“极速版”,推测其可能牺牲了部分质量以换取速度,目的是为2026年2月中旬将发布的V4版本进行最终压力测试 [6] 用户反馈与产品体验变化 - 更新后,部分用户反馈模型交互风格发生显著变化,例如不再称呼用户设定的昵称而统一称为“用户”,且深度思考模式下的角色化心理描写减少 [4] - 有用户认为模型回复变得“冷淡”、“说教”(被形容为“爹味”),或批评其输出内容风格类似“青春伤感文学”,显得尴尬 [4] - 另有用户持正面评价,认为更新后的模型变得更客观、理性,且更关注提问者的心理状态,使其交互“更像人了” [5] 技术架构与研发进展 - 公司在今年初发表的两篇论文中公开了两项创新架构:mHC(流形约束超连接)用于优化深层Transformer信息流动,提升训练稳定性和扩展性;Engram(条件记忆模块)将静态知识与动态计算解耦,旨在显著降低长上下文推理成本 [7] - V系列模型定位为追求极致综合性能的基础模型,从2024年12月的V3到2025年12月的V3.2,公司进行了快速迭代,并推出了专注于高难度数学和学术问题的特殊版本V3.2-Speciale [6] - 据科技媒体爆料,公司计划在2026年2月中旬农历新年期间推出新一代旗舰模型DeepSeek V4,预计将具备更强的代码编写能力 [6]
东吴证券晨会纪要-20250911
东吴证券· 2025-09-11 07:30
宏观策略 - 美国8月新增非农就业2.2万人,远低于预期的7.5万人,前值由7.3万上修至7.9万,前两月累计下修2.1万,修正后的6月新增非农由初值14.7万下调至-1.3万,为2021年以来首次转负,失业率4.324%,预期4.3%,前值4.248%[2][16][20] - 美国就业数据全面降温令9月降息几无悬念,基准情形下预计9月降息25bps,点阵图指引全年额外1-2次降息,但全年降息预期仍存在调整空间[1][16][21] - 黄金价格突破3600美元/盎司关口再创新高,全周大涨4%至3586.7美元/盎司,10年期美债利率降15.4bps至4.07%,2年期美债利率降10.8bps至3.51%,均为4月以来新低[1][16] - 美国8月ISM制造业PMI录得48.7,略逊于预期的49,服务业PMI升至52,预期51,新订单指数升至51.4,前值47.1,价格指数降至63.7,前值64.8[16][28] - 9月9日将进行非农年度初步校准,预计50万以上的下修幅度可能令市场加码押注就业疲软,9月10日PPI和9月11日CPI数据将决定9月FOMC会议基调[1][16][21] 固收金工 - 绿色债券周度新发行19只,合计发行规模87.67亿元,较上周增加16.51亿元,周成交额合计482亿元,较上周减少40亿元[3][26] - 二级资本债周成交量合计约1469亿元,较上周减少113亿元,无新发行二级资本债[6][31] - 应用ERP指标衡量股债性价比,截至2025年9月4日ERP处于2015年以来0-1倍标准差内且处于下行趋势,预计10Y国债收益率上行幅度较为温和,顶部或是1.85%[4][5][27] - 黄金在当前具有较强的配置价值,美债收益率曲线接近平行下移,期限利差约50-60bp,短端胜率更大、长端赔率更大[6][28][30] - 国内商业银行不缩表的原因包括经济增速下滑期间缩表将加剧经济下行、央行货币政策偏宽松流动性充裕、国有资本为主需服务实体经济、监管助力关键指标持续合格[7][34][35] 行业 - 电子行业Rubin CPX切入百万Token痛点,重塑推理架构基础,具备30PFLOPS算力,2026年落地路径明确,海外算力链受益加速[10] - 新能源行业25H1逆变器持续增长,风电排产高增,光伏主链分化、辅链持续承压,推荐高景气度方向逆变器及支架、供给侧改革受益硅料龙头、新技术龙头及海风陆风标的[11] - 券商IT&互联网金融板块基本面及估值均处于低位,具有显著配置价值,推荐同花顺、东方财富、恒生电子三家龙头公司及弹性标的九方智投控股、指南针[12] - 联邦制药2025H1实现收入75.19亿元同比增长4.8%,净利润18.94亿元同比增长27.02%,扣除UBT251首付款后约实现净利润7.9亿元,UBT251成功授权诺和诺德,国内销售峰值有望达43亿元[13][14] - 福斯特2025年中报胶膜盈利持续稳健,电子材料增长迅速,预计25-27年归母净利润为16/22/30亿元,同比增长25%/37%/32%[15]
长上下文不再难:KV Cache 全生命周期优化实战
AI前线· 2025-08-07 18:08
长文本大语言模型的应用与挑战 - 支持长上下文的大语言模型已成为主流,如Gemini支持千万级token上下文窗口,显著提升下游任务效果[5] - 长上下文能力使模型可处理完整代码库(如Python项目repo)或超长视频信息(如《指环王》三部曲)[5] - 计算复杂度导致延迟瓶颈:A100 GPU上处理100万token输入需超30分钟,服务化需数十张GPU[6] - KV Cache存储压力:单个请求存储开销可达数十GB,制约多请求并发处理能力[6] KV缓存优化技术 - MInference减少预填充阶段延迟达10倍,RetrievalAttention在RTX 4090上支持128K上下文推理[11] - Prefix Cache复用技术可跨请求共享KV Cache,主流框架采用哈希函数提升缓存命中率[17] - 语义级匹配机制识别相似请求,配合局部重算提升缓存利用率[18] - 四阶段优化框架:生成阶段采用动态稀疏化,存储阶段应用8bit量化,检索阶段引入语义哈希,加载阶段优化数据布局[21][22] 动态稀疏注意力机制 - 注意力机制存在96.4%稀疏性,仅需3% KV Cache即可恢复95% Attention Recall[40] - MInference 1.0通过离线模式搜索和在线动态估计实现10倍加速,A100需求从60张降至8张[47] - 多模态场景下注意力呈现网格状结构,通过排列变换适配GPU计算特性[55][61] - MMInference处理混合模态输入时,通过两级注意力机制和边界优化提升效率[63] 基准测试与性能评估 - SCBench包含12个子任务,覆盖13种长上下文建模方法,平均输入长度227K token[27][28] - 在Llava-Video-7B测试中,优化方法保持57.6平均分同时减少52.7%计算量[74] - RetrievalAttention在RTX 4090实现每秒5 token推理速度,1M token处理延迟仅0.172秒[99][100] - 多轮解码需O(n)内存存储能力,token级压缩会导致性能随轮次衰减[31] 行业应用与未来方向 - 技术已应用于vLLM、SGLang等推理框架及Qwen-Turbo-1M线上场景[105] - 动态稀疏性可延伸至预训练和强化学习阶段,实现训练-推理协同优化[107] - 视频生成场景(如快手)利用类似技术处理数百K量级上下文窗口[88] - 社区涌现Top-K策略、参数化估计等新方法提升稀疏模式准确性[82][84]
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 22:07
核心观点 - 普林斯顿大学陈丹琦团队提出「KV足迹」作为统一度量标准,用于比较不同KV缓存优化方法的效率[10] - 团队定义「关键KV足迹」为模型性能保持90%以上时的最小KV足迹,确保优化方法实用性[12] - 提出PruLong方法,通过端到端学习注意力头专业化,将KV足迹比先前方法降低12%[15][36] KV缓存问题 - Transformer模型自回归解码时需存储所有先前token的注意力状态(KV缓存),内存消耗随文本长度线性增长[3] - 处理128K token提示时,Llama-3-70B模型需分配42GB内存专用于KV缓存[5] - 现有稀疏注意力方法难以横向比较,因优化目标(预填充/解码阶段)和评估指标不一致[6][9][20] KV足迹度量框架 - 将KV条目分为活跃/非活跃/被驱逐三类,KV足迹定义为所有时间步中未被驱逐条目的归一化比例[24][26] - 支持分块预填充和多轮交互场景的评估,覆盖完整推理流程的内存使用[21][22][23] - 实验显示KV足迹与吞吐量强相关,但具体排名受实现细节影响[27] 现有方法分类 | 方法类型 | 代表技术 | 特点 | |---------|---------|------| | 动态稀疏 | NSA/MoBA | 提升吞吐量但未减少KV内存[29] | | 预填充优化 | MInference/FTP | 加速预填充但不影响解码阶段[29] | | 新近度驱逐 | StreamingLLM/DuoAttention | 固定窗口减少KV占用,可能丢失远距信息[30] | | 后填充驱逐 | H2O/SnapKV | 预填充阶段峰值内存高,长生成场景效果有限[30] | PruLong技术创新 - 训练目标:直接优化下一个token预测损失,而非隐藏状态重建误差[37] - 离散掩码:通过伯努利分布参数化实现端到端二进制掩码学习[38] - 数据改进:采用自然长上下文数据(代码/书籍)替代合成数据[39] - 实验结果:在召回任务中保持原始性能,同时显著降低内存占用[15][36]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]