上下文腐烂
搜索文档
“16 个 Agent 组队,两周干翻 37 年 GCC”?!最强编码模型 Claude Opus 4.6 首秀,10 万行 Rust 版 C 编译器跑通 Linux 内核还能跑Doom
AI前线· 2026-02-07 11:40
文章核心观点 - Anthropic发布新一代旗舰模型Claude Opus 4.6,此次升级并非常规性能修补,而是围绕长任务、复杂工作及智能体(agent)如何真正干活展开的系统性升级 [2] - 新模型在编程能力上已从单纯代码生成,扩展到更前置的任务规划以及更后置的代码审查与调试流程,使其能在大型代码库中更稳定地工作,并持续参与多阶段、长周期的工程任务 [12] - 公司通过一项为期约两周、成本约2万美元的实验,让Opus 4.6从零开始用Rust编写了一个约10万行代码的C编译器,该编译器能编译Linux内核等大型项目,展示了其在长时间运行的自治智能体团队方面的工程能力 [4][25][38] 模型性能与基准测试 - 在终端agentic编程能力(Agentic terminal coding)上,Opus 4.6得分65.4%,略高于GPT-5.2的64.7%,明显领先Gemini 3 Pro的56.2%和Sonnet 4.5的51.0% [13] - 在SWE-bench Verified(Agentic coding)上,Opus 4.6得分80.8%,与Opus 4.5的80.9%及GPT-5.2的80.0%基本处于同一水平,表明在标准化软件工程任务上能力趋同 [13][14] - 在电脑操作(OSWorld, Agentic computer use)上,Opus 4.6达到72.7%,相比Opus 4.5的66.3%有明显提升,Sonnet 4.5为61.4% [13][15] - 在Agentic search(BrowseComp)上,Opus 4.6以84.0%的得分明显领先于GPT-5.2 Pro的77.9%和Opus 4.5的67.8%,表明其在真实开放网络中定位、筛选和组合信息的能力领先 [13][16] - 在新问题解决(ARC AGI 2, Novel problem-solving)上,Opus 4.6得分68.8%,显著高于GPT-5.2 Pro的54.2%和Gemini 3 Pro的45.1%,反映其更强的泛化推理能力 [13][16] - 在长上下文信息检索(MRCR v2测试)中,Opus 4.6得分为76%,远高于Sonnet 4.5的18.5%,有效缓解了“上下文腐烂”问题,提升了在超长文本中稳定检索并利用信息的能力 [19] 技术特性与工程实践 - Opus 4.6在Beta阶段提供100万token的上下文长度,适合处理更大型的代码库和更长文档的分析 [17] - 新模型在大规模文档中检索关键信息的能力显著增强,可以在数十万token范围里持续跟踪信息,偏差更小,更容易捕捉深层细节 [18] - 长上下文的稳定性直接影响模型胜任复杂代码分析与故障诊断(如根因分析)的能力 [21] - 最醒目的新增功能是“智能体团队”,由多个智能体组成小队,可将大任务拆分成独立的子任务并行推进,目前以研究预览形式向API用户与订阅用户开放 [24] - 在为期约两周的编译器构建实验中,累计运行了近两千次Claude Code会话,消耗约20亿输入token、生成约1.4亿输出token [38] - 实验总API成本约为2万美元,该成本被认为远低于由单人甚至完整人类团队完成同等工作的成本 [4][38] 智能体团队的方法论与发现 - 实验目标是消除对“人类在线”的依赖,让Claude在无人监督下持续推进长期任务,其核心是构建一个简单的循环程序,让Claude每完成一个任务就立刻进入下一个,而非等待用户 [26] - 并行运行多个Claude实例可以缓解单一智能体的弱点:一次会话只能做一件事,以及实现分工协作 [27][28] - 并行是否有效取决于问题是否“好拆”,当任务高度耦合(如编译Linux内核)时,并行无法带来实质进展,需引入GCC作为在线对照编译器来拆分问题 [34][35] - 并行运行带来了角色分工的可能,例如有专门负责扫描合并重复代码、提升编译器性能、改进生成代码效率、审视项目设计以及维护文档的智能体 [35][36] - 系统设计必须围绕语言模型的固有限制,重点应对了“上下文窗口污染”和“时间盲”两类限制,通过优化测试框架输出和提供快速测试选项来解决 [31][32] - 团队使用简单的同步算法(通过在Git仓库中锁定文件)来避免多个智能体尝试解决同一问题,多数情况下由Claude自行决定下一步行动 [29][33] 成果评估与能力边界 - 最终产出的编译器规模约10万行代码,能够在x86、ARM和RISC-V架构上构建可启动的Linux 6.9,并可编译FFmpeg、Redis、PostgreSQL、QEMU等项目 [4][38] - 该编译器通过了GCC自身99%的torture test,并能够成功编译并运行Doom游戏 [4][38] - 编译器是一次完全的clean-room实现,开发过程中Claude未获得互联网访问权限,仅依赖Rust标准库 [38] - 整体实现已接近Opus的能力上限,新增功能或修复bug时常会破坏已有功能 [40] - 当前能力边界包括:缺乏启动Linux所需的16位x86编译能力(real mode阶段调用GCC),尚未拥有稳定可用的assembler与linker,不能完全替代真正的编译器,生成的代码效率不高(低于禁用所有优化的GCC),Rust代码质量不及专家级程序员 [40][42] - 该编译器的源码已在GitHub公开,截至统计时已获得329个star和16个fork [41]
中门对狙!Claude Opus 4.6和GPT-5.3 Codex同时发布,这下真的AI春晚了。
数字生命卡兹克· 2026-02-06 07:58
文章核心观点 - 行业两大领先公司Anthropic与OpenAI在同一天发布重磅模型更新,标志着AI行业竞争进入白热化阶段,模型能力快速进步且差距缩小 [129][130][132] - 两家公司均将发展重点押注于智能体(Agent)方向,但产品侧重点有所不同,Claude更侧重于B端生产力工具集成,而GPT Codex系列更专注于编程与开发场景 [133][66][108] - 模型能力的提升正驱动软件行业经历一场根本性的范式转变,传统SaaS公司面临压力,现在是需要密切关注和积极学习的关键时期 [134][136][137] Claude Opus 4.6 模型性能分析 - 在多项基准测试中表现卓越,综合能力被视为当前最先进的模型(SOTA)[23] - **终端编程能力**:在Terminal-Bench 2.0测试中得分65.4%,高于GPT-5.2的64.7%和Gemini 3 Pro的56.2% [9][10] - **计算机操作能力**:在OSWorld测试中得分72.7%,较其前代Opus 4.5的66.3%有显著提升,表明其向全面智能体化发展 [11] - **网络搜索能力**:在BrowseComp测试中得分84.0%,大幅领先于GPT-5.2 Pro的77.9% [12][13] - **真实工作任务表现**:在GDPval-AA评估中获得1606的Elo评分,比GPT-5.2高出144分,比其前代Opus 4.5高出190分 [14] - **新颖问题解决能力**:在ARC AGI 2测试中得分高达68.8%,远超其他模型,展现了强大的“流体智力” [15][21] Claude Opus 4.6 产品功能更新 - **上下文窗口大幅扩展**:支持100万token的上下文窗口,是之前200K容量的5倍,并在MRCR v2测试中,于100万token中准确找到隐藏信息的成功率达76% [28][34] - **输出上限提升**:最大输出从64K token翻倍至128K token [37] - **上下文压缩功能**:模型可自动将旧对话内容压缩为摘要,以支持更长时间的连续任务执行 [41][43] - **自适应思考与努力控制**:新增Adaptive Thinking功能,让模型自主判断思考深度;用户可手动设置思考努力程度(low, medium, high, max),以平衡速度、成本与质量 [49][51] - **智能体团队协作**:推出Agent Teams功能,允许一个会话作为协调者,启动多个拥有独立上下文窗口的团队成员并行工作并直接相互通信,适用于需要讨论与协作的复杂任务 [53][55][57] Anthropic 的B端产品集成进展 - **Excel深度集成**:Claude in Excel插件已集成Opus 4.6,新增支持数据透视表编辑、图表修改、条件格式、排序筛选及金融级格式设置等功能 [58][59] - **PowerPoint集成**:新推出Claude in PowerPoint插件,Claude可读取现有演示文稿的布局与样式,并根据客户模板创建新内容或进行针对性编辑 [62][63][64] - 公司在B端和生产工具领域的产品体验被认为已形成显著优势 [66] Claude Opus 4.6 定价与可用性 - API基础价格保持为输入每百万token 5美元,输出每百万token 25美元 [68] - 当提示超过20万token时,定价调整为输入每百万token 10美元,输出每百万token 37.50美元 [69] - 模型已在Claude网页版及Claude Code中全面上线 [73] GPT-5.3 Codex 模型特性与意义 - **自我改进的里程碑**:该模型是首个在自身开发过程中发挥重要作用的模型,被用于调试训练过程、管理部署和诊断测试结果,这可能加速AI自身的进化速度 [80][86] - **终端编程能力领先**:在Terminal-Bench 2.0测试中得分77.3%,显著高于Claude Opus 4.6的65.4% [92][93] - **计算机操作能力**:在更严格、修复了300多个问题的OSWorld-Verified测试中得分64.7%,其测试基准被认为比Claude报告的原版OSWorld更难 [95][96] - **软件工程任务**:在更复杂、多语言、多仓库的SWE-bench Pro Public测试中得分56.8%,该基准被认为比Claude使用的SWE-bench Verified子集难度更高 [103][106][107] - **真实工作贡献评估**:在GDPval评估中,其产出被人类专家盲评为“与人类一样好或更好”的比例为70.9% [99] GPT-5.3 Codex 产品演示与更新 - **复杂游戏开发能力**:模型在数天内自主迭代数百万token,生成了包含多地图、道具系统的完整赛车游戏以及包含生态系统探索、氧气管理系统的潜水游戏 [110][114] - **实时交互功能**:用户可在模型工作过程中随时介入并调整方向,无需先停止任务 [117][118] - **性能与效率提升**:在Codex平台上运行速度显著加快,完成相同任务所需token数不到5.2-Codex的一半,且单token处理速度快25%以上 [121][124]
真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文
量子位· 2026-01-19 11:48
文章核心观点 - MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)的新方法,旨在解决大模型处理超长文本时的“上下文腐烂”问题,该方法不修改模型架构,而是通过将提示词“外包”给可交互的Python环境,让模型通过自动编程和递归调用来拆解与处理任务,从而使其能够处理远超自身原生上下文窗口的超长文本[1][2][4] 现有长文本处理方法的局限 - 当前大模型在处理超长文本时普遍存在“上下文腐烂”问题,即文本越长,模型对早期信息的记忆越模糊,推理性能直线下滑[5] - 行业主流解决方案包括上下文压缩、检索增强生成(RAG)以及对模型进行架构级优化,例如GPT-5.2-Codex采用窗口内原生上下文压缩技术,而GPT、Claude、Qwen等企业级版本原生集成RAG功能[7][8][9] RLM方法的核心机制 - RLM的核心思路是将上下文处理“外包”,为模型搭建一个可交互的Python编程环境(REPL)[11][13] - 处理流程分为四步:首先将超长提示词作为字符串变量存入Python环境;接着模型像程序员一样编写代码对文本进行筛选、探查和拆分;随后将复杂任务拆解为子任务并递归调用自身或轻量化子模型处理;最后整合所有子任务结果形成最终输出[14] - 该方法全程由模型自主决策,实现了输入文本长度与模型上下文窗口的解耦,按需处理文本[15] RLM的性能表现 - 实验显示,RLM有效处理规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级[16] - 在OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%,采用RLM方案后,两款模型的F1分数分别提升至58.00%和23.11%[16] - 在600万至1100万Token规模的BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达91.33%,大幅超越其他方案[16] - 在要求线性扫描几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升[17] RLM的成本与适用性 - 从调用成本看,在50分位数指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,表明在大多数常规任务中其性价比较有优势[18][19] - 但在95分位数等高百分位区间,RLM成本会出现明显飙升,主要因其推理过程动态,会根据任务复杂度自主决定代码编写和递归调用次数,从而增加API调用次数[20][21] - RLM是一种不修改模型架构的通用推理策略,理论上任何模型都能直接应用该方法[23]