SubQ
搜索文档
领先于Transformer!新架构首个1200万上下文模型SubQ,成本仅Opus的5%
机器之心· 2026-05-06 14:04
文章核心观点 - 公司Subquadratic提出了一种名为SubQ的新模型,其核心是亚二次稀疏注意力机制,旨在从根本上解决大语言模型处理长上下文时计算成本过高、效率低下的问题,使模型能够真正理解并利用长达百万token的上下文信息,如代码库、合同和研究语料 [2][5][8] - 传统的稠密注意力机制在处理长上下文时存在“浪费性的二次复杂度”,计算量随序列长度呈二次方增长,导致在百万token级别成本过高,而SSA通过基于内容的选择机制,只计算真正重要的token交互,将计算复杂度降低至线性,实现了显著的性能提升和成本降低 [3][10][22] - SubQ模型在多项基准测试中展现出与前沿模型相当的检索和推理能力,同时在长上下文场景下实现了巨大的速度优势,例如在100万token场景下预填充速度比稠密注意力快52.2倍,成本不到Opus的5%,为长上下文AI应用提供了经济可行的新路径 [5][8][32] 长上下文问题的挑战与现有方案的局限 - 企业AI面临的真正难题本质上是长上下文问题,涉及代码库、合同、知识库等,相关信息分散且间接引用,需要模型同时理解多处信息才能有效推理 [2][15] - 现有解决方案如将长文档切块、检索增强生成和基于Agent的工作流,虽然有效,但会引入新的失效模式,例如丢失位置信息和引用关系,错误在步骤间累积,并且过度依赖人工设计的策略,削弱了泛化能力 [16][18][19] - 行业通过在模型外构建“脚手架”来绕开长上下文限制,但并未改变底层注意力机制二次方扩展的规律,成本依然是核心瓶颈 [20][23] SSA(亚二次稀疏注意力)的技术原理与优势 - SSA的核心思想是“基于内容的选择”,它改变了注意力分配方式,不再假设任意一对token都重要,而是通过路由机制只在与当前query真正相关的位置上精确计算注意力,从而大幅减少计算量 [27][28][29] - SSA具备三个关键特性:1) 计算与内存的线性扩展;2) 基于内容的路由能力;3) 从任意位置进行稀疏检索的能力,这使其从根本上区别于仅优化执行效率的方案 [30] - 随着上下文长度增加,SSA相比稠密注意力的速度优势呈指数级放大,在B200 GPU上,128K token时加速7.2倍,256K时加速13.2倍,512K时加速23.0倍,100万token时加速达到52.2倍 [30][32] SubQ模型的训练与评估 - 为确保模型能可靠利用长上下文,研究团队采用了三阶段训练流程:预训练建立基础能力、监督微调引导至企业工作负载模式、强化学习专门针对长上下文检索和跨引用推理等难以诱导的行为进行优化 [35][37][38] - 评估强调“功能上下文”而非“名义上下文”,即模型实际利用上下文进行检索、关联和推理的能力,而非宣称的窗口大小 [40] - 在计算速度方面,SSA在100万token规模下,注意力FLOPs相比标准注意力降低了62.5倍,预填充加速达52.2倍 [41][42] - 在检索能力基准测试中,SubQ在RULER(128K)上达到95.0%,与Opus 4.6的94.8%相当;在MRCR v2上得分为65.9%,处于Claude Opus 4.6的得分区间内,并领先于GPT-5.4和Gemini 3.1 Pro;在SWE-Bench Verified上达到81.8%,与同级别模型表现相近 [45][48][50]