长上下文处理
搜索文档
北大袁境阳:稀疏注意力机制让模型 10 倍加速——Attention
36氪· 2026-01-07 15:58
文章核心观点 - 原生稀疏注意力机制是一种从架构层面重新设计的注意力机制,旨在解决大模型处理超长上下文时面临的计算与访存瓶颈,其目标是在预训练阶段就以稀疏方式工作,并在推理阶段实现显著加速且不损失模型性能 [4][5][6] - NSA通过将注意力分解为压缩、选择和滑动窗口三条并行路径,并将稀疏性提升为结构原则,使模型能够学习如何以稀疏的方式运作,从而实现了效率与性能的兼得 [8][18] - NSA的成功不仅依赖于算法创新,更依赖于与现代GPU硬件特性的深度耦合,通过重新设计计算内核以优化访存模式,解决了稀疏注意力在硬件上实际加速的核心挑战 [9][20][30] 技术架构与设计原理 - NSA采用三分支架构:压缩路径负责对遥远Token进行块级聚合,提供全局轮廓和重要性评分;选择路径基于评分挑选关键块以保留细节;滑动窗口路径确保对局部上下文的完整建模,三条路径通过可学习的门控机制融合 [5][8][17] - 该架构使稀疏性成为结构学习过程的自然结果,模型在预训练中可通过反向传播直接学习最优的稀疏模式,无需依赖人工设计的启发式规则 [8][10] - 滑动窗口分支为训练初期提供了稳定的局部注意力通道,确保模型能先建立稳固的短程依赖关系,避免了因过早稀疏化而导致的学习不稳定 [16][17][22] 性能表现与效率提升 - 在一个27B参数(采用GQA与MoE)的模型上,NSA在64k上下文长度下,训练前向速度可达全注意力的约9倍,反向速度可达6倍 [6] - 在解码阶段,NSA将KV缓存访存量降至全注意力的大约十分之一,实现了接近理论上限的11.6倍加速 [6] - 在MMLU、GSM8K、DROP等通用基准测试上,NSA模型性能不逊于全注意力模型;在LongBench、64k Needle-in-a-Haystack等长上下文任务上表现更优;在AIME 24数学推理中,即使在8k或16k生成窗口内也展现出更可靠的链式推理精度 [6] 硬件协同与工程实现 - NSA专为GPU访存特性设计,其以连续Token块为基本操作单元的结构与GPU访存方式天然兼容,通过新的Triton内核实现同一GQA组内多头共享稀疏后的KV索引,并一次性连续加载KV块到SRAM,最大化Tensor Core利用率 [5][9] - 传统闪电注意力机制内核假设数据访问是密集且连续的,无法有效支持稀疏、动态的访问模式,NSA通过统一GQA组内的KV块加载,从根本上改变了稀疏注意力的硬件访问模式,将优化重点从减少计算量转向减少访存 [19][20][30] - 现代GPU显存带宽相对容量更为稀缺,迫使行业模型设计必须考虑访问的稀疏性和选择性,以保障解码阶段的每秒生成Token数,NSA正是在这种硬件现实下的必然选择 [24][27][29] 行业意义与发展趋势 - 超长上下文处理能力正成为大模型的核心竞争力,但标准全注意力的平方复杂度已成为系统瓶颈,在64k上下文下,Softmax注意力可占据70%–80%的解码延迟 [4] - 随着智能体、检索增强生成、长序列推理、强化学习等后训练阶段任务的重要性上升,算力消耗急剧增加,要求模型架构必须支持全生命周期的稀疏化高效训练,NSA为此提供了可行的基础架构方向 [23][31][33] - 未来的大模型优化将更侧重于“后训练架构”创新,NSA展示了一种可能性:通过让架构本身吸收稀疏性,可以重塑模型从预训练到部署全周期的计算效率 [32][33]
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点
钛媒体APP· 2025-11-19 08:32
产品发布与战略意义 - 谷歌发布最新人工智能模型Gemini 3,该模型被业内称为“全能型选手”,实现了对前代产品的代际级超越,并在多个核心基准测试中对标甚至超越GPT-5.1、Claude 4.5等竞品 [1] - 模型将整合进Gemini应用、AI搜索产品AI Mode和AI Overviews,以及企业级产品,自发布日起向部分订阅用户开放,并将在未来几周更大范围上线 [1] - 此次发布具有重要战略意义,可能让公司在AI竞赛中夺得领先地位,特别是在OpenAI的ChatGPT-5未能立即产生重大影响之后 [8] 核心能力突破:推理 - 在基础推理能力上,Gemini 3 Pro在GPQA Diamond测试准确率达91.9%,在Humanity's Last Exam测试中无工具状态下得分37.5%,在SimpleQA Verified测试中以72.1%的分数领跑业界 [2] - 推出Gemini 3 Deep Think增强推理模式,在Humanity's Last Exam测试中达到41.0%的成绩,在GPQA Diamond测试中获得93.8%的分数,在ARC-AGI-2测试中创下45.1%的成绩 [3] - 增强推理模式通过“思维签名”和“思考等级”两大创新将思维链技术产品化,该模式将在未来几周内向Google AI Ultra订阅用户开放 [3] 核心能力突破:多模态与长上下文 - Gemini 3 Pro支持高达100万tokens的超长上下文长度,相当于700页英文书籍或2小时的4K视频,较谷歌自身的Gemini 2提升7倍,且保持90%以上的信息保留率 [4] - 在多模态理解方面,Gemini 3 Pro在MMMU-Pro测试中获得81%的分数,在Video-MMMU测试中达到87.6%,成为“世界上最先进的多模态理解模型” [4] - 测试显示,模型在识别18世纪手写文稿方面字符错误率仅为0.56%,词错误率为1.22%,相比前代Gemini 2.5 Pro提升50%-70%,达到专家级人类水平 [7] 核心能力突破:编码与智能体 - 在代码生成领域,Gemini 3在LiveCodeBench Pro测试中以2439的Elo得分远超GPT-5.1的2243和Claude 4.5的1418,逼近专业程序员水平 [5] - 智能体能力显著跃升,在Terminal-Bench 2.0测试中以54.2%的得分展现强大工具使用能力,在Vending-Bench 2测试中通过一致决策实现更高回报,位居测试榜首 [6] - 公司同步推出全新开发平台Google Antigravity,支持在更高抽象层级上进行任务导向型编程 [6] 行业影响与公司优势 - 模型发布将倒逼竞争对手加速技术创新,推动AI行业在推理能力、多模态融合、智能体开发等领域的全面进步 [9] - 公司拥有自研专用芯片、在线搜索约90%的市场份额,以及数以百万计的Gmail、Google Docs等用户基础,这些产品正逐步被注入AI功能 [8] - 公司上月公布创纪录收入,并计划在AI建设上投入数十亿美元 [8]
计算机行业周报 20251020-20251024:DeepSeek OCR 提供新思路!量子计算中美多热点解读!-20251025
申万宏源证券· 2025-10-25 22:05
行业投资评级与核心观点 - 报告未明确给出整体行业的投资评级 [6] - 核心观点聚焦于人工智能技术突破与量子计算发展两大主线:DeepSeek OCR发布为长上下文处理提供新思路,量子计算作为全球科技竞争焦点多技术路线快速推进 [6][7] DeepSeek OCR技术突破 - DeepSeek于2025年10月20日开源新模型DeepSeek OCR,通过光学压缩方式解决LLM处理长文本的计算量挑战 [8] - 核心技术采用创新性的光学上下文压缩,将文本内容渲染为图像并通过视觉编码器压缩为少量视觉token,实现文本信息高效压缩 [9] - 实验证明压缩比小于10倍时OCR解码精度可达97%,在OminiDocBench基准测试中使用更少量视觉tokens达到领先性能 [10] - 模型架构采用DeepEncoder编码器和DeepSeek-3B-MoE解码器,总参数量3B(激活参数570M),实现高压缩比和高推理效率 [12] - 处理效率大幅提升,将计算复杂度从O(n²)降至O(n),单张A100-40G GPU每日可支持20万页数据处理 [15] - 该技术对金融、医疗、法律、教育、科研等需要处理超长文档的场景具有重大意义,能高效解析图表、化学公式、几何图形等近100种语言 [16] 量子计算全球竞争态势 - 量子计算成为全球科技必争之地,各国通过战略规划与资本投入展开激烈角逐,2023年以来竞争加速 [17][18] - 全球量子计算专利技术来源国分布:美国49.34%,中国24.36%,欧洲9.67%,日本5.20%,呈现中美主导格局 [19] - 美国政府2024年通过能源部量子领导法案,计划5年投资约25亿美元,并在2026财年《国防授权法案》审议期间提出11项量子信息科学修正案 [22][23] - 中国“十五五”规划将量子科技列为新经济增长点,前瞻布局未来产业 [23] - 技术路线呈现多元化发展,超导和离子阱是当前商业化成熟度最高的两条路线,同时硅基半导体、拓扑等多种路线并行发展 [24][25] - 产业突破不断:IONQ实现99.99%双量子比特门保真度,谷歌Willow芯片运行“量子回声”算法速度超经典超算13000倍,IBM Condor芯片达1121量子比特 [27][29][30] 重点公司业绩更新 - 同花顺2025年第三季度实现收入14.8亿元,同比增长56.7%,归母净利润7亿元,同比增长144.5%,收入利润双超预期 [32] - 同花顺截至25Q3末合同负债达25.19亿元,前三季度经营现金流净额21.96亿元,同比增长235.3%,显示后续收入增长弹性 [32][33] - 科大讯飞2025年第三季度实现收入60.8亿元,同比增长10.02%,归母净利润1.7亿元,同比增长202.40%,利润超预期 [34] - 科大讯飞25Q1-Q3大模型相关中标金额和数量排名第一,Q3中标金额5.45亿元,新增开发者数量超122万,其中大模型开发者新增69万 [35] 投资标的梳理 - AIGC应用标的包括金山办公、万兴科技、科大讯飞、同花顺等16家公司 [6] - 数字经济领军标的包括海康威视、金山办公、恒生电子、中控技术等12家公司 [6] - 信创&数据标的包括海光信息、软通动力、索辰科技、太极股份等8家公司 [6] - AIGC算力标的包括浪潮信息、海光信息、神州数码、中科曙光等公司 [6] - 估值方面,金山办公2025年预测PE为76倍,海康威视22倍,恒生电子50倍,中控技术35倍,反映市场对不同赛道公司的估值差异 [40]