上下文腐烂 - 财报，业绩电话会，研报，新闻

上下文腐烂

搜索文档

“16 个 Agent 组队，两周干翻 37 年 GCC”？！最强编码模型 Claude Opus 4.6 首秀，10 万行 Rust 版 C 编译器跑通 Linux 内核还能跑Doom

AI前线· 2026-02-07 11:40

文章核心观点 - Anthropic发布新一代旗舰模型Claude Opus 4.6，此次升级并非常规性能修补，而是围绕长任务、复杂工作及智能体（agent）如何真正干活展开的系统性升级 [2] - 新模型在编程能力上已从单纯代码生成，扩展到更前置的任务规划以及更后置的代码审查与调试流程，使其能在大型代码库中更稳定地工作，并持续参与多阶段、长周期的工程任务 [12] - 公司通过一项为期约两周、成本约2万美元的实验，让Opus 4.6从零开始用Rust编写了一个约10万行代码的C编译器，该编译器能编译Linux内核等大型项目，展示了其在长时间运行的自治智能体团队方面的工程能力 [4][25][38] 模型性能与基准测试 - 在终端agentic编程能力（Agentic terminal coding）上，Opus 4.6得分65.4%，略高于GPT-5.2的64.7%，明显领先Gemini 3 Pro的56.2%和Sonnet 4.5的51.0% [13] - 在SWE-bench Verified（Agentic coding）上，Opus 4.6得分80.8%，与Opus 4.5的80.9%及GPT-5.2的80.0%基本处于同一水平，表明在标准化软件工程任务上能力趋同 [13][14] - 在电脑操作（OSWorld, Agentic computer use）上，Opus 4.6达到72.7%，相比Opus 4.5的66.3%有明显提升，Sonnet 4.5为61.4% [13][15] - 在Agentic search（BrowseComp）上，Opus 4.6以84.0%的得分明显领先于GPT-5.2 Pro的77.9%和Opus 4.5的67.8%，表明其在真实开放网络中定位、筛选和组合信息的能力领先 [13][16] - 在新问题解决（ARC AGI 2, Novel problem-solving）上，Opus 4.6得分68.8%，显著高于GPT-5.2 Pro的54.2%和Gemini 3 Pro的45.1%，反映其更强的泛化推理能力 [13][16] - 在长上下文信息检索（MRCR v2测试）中，Opus 4.6得分为76%，远高于Sonnet 4.5的18.5%，有效缓解了“上下文腐烂”问题，提升了在超长文本中稳定检索并利用信息的能力 [19] 技术特性与工程实践 - Opus 4.6在Beta阶段提供100万token的上下文长度，适合处理更大型的代码库和更长文档的分析 [17] - 新模型在大规模文档中检索关键信息的能力显著增强，可以在数十万token范围里持续跟踪信息，偏差更小，更容易捕捉深层细节 [18] - 长上下文的稳定性直接影响模型胜任复杂代码分析与故障诊断（如根因分析）的能力 [21] - 最醒目的新增功能是“智能体团队”，由多个智能体组成小队，可将大任务拆分成独立的子任务并行推进，目前以研究预览形式向API用户与订阅用户开放 [24] - 在为期约两周的编译器构建实验中，累计运行了近两千次Claude Code会话，消耗约20亿输入token、生成约1.4亿输出token [38] - 实验总API成本约为2万美元，该成本被认为远低于由单人甚至完整人类团队完成同等工作的成本 [4][38] 智能体团队的方法论与发现 - 实验目标是消除对“人类在线”的依赖，让Claude在无人监督下持续推进长期任务，其核心是构建一个简单的循环程序，让Claude每完成一个任务就立刻进入下一个，而非等待用户 [26] - 并行运行多个Claude实例可以缓解单一智能体的弱点：一次会话只能做一件事，以及实现分工协作 [27][28] - 并行是否有效取决于问题是否“好拆”，当任务高度耦合（如编译Linux内核）时，并行无法带来实质进展，需引入GCC作为在线对照编译器来拆分问题 [34][35] - 并行运行带来了角色分工的可能，例如有专门负责扫描合并重复代码、提升编译器性能、改进生成代码效率、审视项目设计以及维护文档的智能体 [35][36] - 系统设计必须围绕语言模型的固有限制，重点应对了“上下文窗口污染”和“时间盲”两类限制，通过优化测试框架输出和提供快速测试选项来解决 [31][32] - 团队使用简单的同步算法（通过在Git仓库中锁定文件）来避免多个智能体尝试解决同一问题，多数情况下由Claude自行决定下一步行动 [29][33] 成果评估与能力边界 - 最终产出的编译器规模约10万行代码，能够在x86、ARM和RISC-V架构上构建可启动的Linux 6.9，并可编译FFmpeg、Redis、PostgreSQL、QEMU等项目 [4][38] - 该编译器通过了GCC自身99%的torture test，并能够成功编译并运行Doom游戏 [4][38] - 编译器是一次完全的clean-room实现，开发过程中Claude未获得互联网访问权限，仅依赖Rust标准库 [38] - 整体实现已接近Opus的能力上限，新增功能或修复bug时常会破坏已有功能 [40] - 当前能力边界包括：缺乏启动Linux所需的16位x86编译能力（real mode阶段调用GCC），尚未拥有稳定可用的assembler与linker，不能完全替代真正的编译器，生成的代码效率不高（低于禁用所有优化的GCC），Rust代码质量不及专家级程序员 [40][42] - 该编译器的源码已在GitHub公开，截至统计时已获得329个star和16个fork [41]

智能体团队

长上下文稳定性

上下文腐烂

Artificial Intelligence

Artificial Intelligence

Claude Opus 4.6

Claude Code

中门对狙！Claude Opus 4.6和GPT-5.3 Codex同时发布，这下真的AI春晚了。

数字生命卡兹克· 2026-02-06 07:58

文章核心观点 - 行业两大领先公司Anthropic与OpenAI在同一天发布重磅模型更新，标志着AI行业竞争进入白热化阶段，模型能力快速进步且差距缩小 [129][130][132] - 两家公司均将发展重点押注于智能体（Agent）方向，但产品侧重点有所不同，Claude更侧重于B端生产力工具集成，而GPT Codex系列更专注于编程与开发场景 [133][66][108] - 模型能力的提升正驱动软件行业经历一场根本性的范式转变，传统SaaS公司面临压力，现在是需要密切关注和积极学习的关键时期 [134][136][137] Claude Opus 4.6 模型性能分析 - 在多项基准测试中表现卓越，综合能力被视为当前最先进的模型（SOTA）[23] - **终端编程能力**：在Terminal-Bench 2.0测试中得分65.4%，高于GPT-5.2的64.7%和Gemini 3 Pro的56.2% [9][10] - **计算机操作能力**：在OSWorld测试中得分72.7%，较其前代Opus 4.5的66.3%有显著提升，表明其向全面智能体化发展 [11] - **网络搜索能力**：在BrowseComp测试中得分84.0%，大幅领先于GPT-5.2 Pro的77.9% [12][13] - **真实工作任务表现**：在GDPval-AA评估中获得1606的Elo评分，比GPT-5.2高出144分，比其前代Opus 4.5高出190分 [14] - **新颖问题解决能力**：在ARC AGI 2测试中得分高达68.8%，远超其他模型，展现了强大的“流体智力” [15][21] Claude Opus 4.6 产品功能更新 - **上下文窗口大幅扩展**：支持100万token的上下文窗口，是之前200K容量的5倍，并在MRCR v2测试中，于100万token中准确找到隐藏信息的成功率达76% [28][34] - **输出上限提升**：最大输出从64K token翻倍至128K token [37] - **上下文压缩功能**：模型可自动将旧对话内容压缩为摘要，以支持更长时间的连续任务执行 [41][43] - **自适应思考与努力控制**：新增Adaptive Thinking功能，让模型自主判断思考深度；用户可手动设置思考努力程度（low, medium, high, max），以平衡速度、成本与质量 [49][51] - **智能体团队协作**：推出Agent Teams功能，允许一个会话作为协调者，启动多个拥有独立上下文窗口的团队成员并行工作并直接相互通信，适用于需要讨论与协作的复杂任务 [53][55][57] Anthropic 的B端产品集成进展 - **Excel深度集成**：Claude in Excel插件已集成Opus 4.6，新增支持数据透视表编辑、图表修改、条件格式、排序筛选及金融级格式设置等功能 [58][59] - **PowerPoint集成**：新推出Claude in PowerPoint插件，Claude可读取现有演示文稿的布局与样式，并根据客户模板创建新内容或进行针对性编辑 [62][63][64] - 公司在B端和生产工具领域的产品体验被认为已形成显著优势 [66] Claude Opus 4.6 定价与可用性 - API基础价格保持为输入每百万token 5美元，输出每百万token 25美元 [68] - 当提示超过20万token时，定价调整为输入每百万token 10美元，输出每百万token 37.50美元 [69] - 模型已在Claude网页版及Claude Code中全面上线 [73] GPT-5.3 Codex 模型特性与意义 - **自我改进的里程碑**：该模型是首个在自身开发过程中发挥重要作用的模型，被用于调试训练过程、管理部署和诊断测试结果，这可能加速AI自身的进化速度 [80][86] - **终端编程能力领先**：在Terminal-Bench 2.0测试中得分77.3%，显著高于Claude Opus 4.6的65.4% [92][93] - **计算机操作能力**：在更严格、修复了300多个问题的OSWorld-Verified测试中得分64.7%，其测试基准被认为比Claude报告的原版OSWorld更难 [95][96] - **软件工程任务**：在更复杂、多语言、多仓库的SWE-bench Pro Public测试中得分56.8%，该基准被认为比Claude使用的SWE-bench Verified子集难度更高 [103][106][107] - **真实工作贡献评估**：在GDPval评估中，其产出被人类专家盲评为“与人类一样好或更好”的比例为70.9% [99] GPT-5.3 Codex 产品演示与更新 - **复杂游戏开发能力**：模型在数天内自主迭代数百万token，生成了包含多地图、道具系统的完整赛车游戏以及包含生态系统探索、氧气管理系统的潜水游戏 [110][114] - **实时交互功能**：用户可在模型工作过程中随时介入并调整方向，无需先停止任务 [117][118] - **性能与效率提升**：在Codex平台上运行速度显著加快，完成相同任务所需token数不到5.2-Codex的一半，且单token处理速度快25%以上 [121][124]

上下文腐烂

流体智力

Artificial Intelligence

Artificial Intelligence

Claude Opus 4.6

GPT-5.3 Codex

真·开外挂！MIT新研究：架构0改动，让大模型解锁千万级上下文

量子位· 2026-01-19 11:48

文章核心观点 - MIT CSAIL研究团队提出了一种名为递归语言模型（RLM）的新方法，旨在解决大模型处理超长文本时的“上下文腐烂”问题，该方法不修改模型架构，而是通过将提示词“外包”给可交互的Python环境，让模型通过自动编程和递归调用来拆解与处理任务，从而使其能够处理远超自身原生上下文窗口的超长文本[1][2][4] 现有长文本处理方法的局限 - 当前大模型在处理超长文本时普遍存在“上下文腐烂”问题，即文本越长，模型对早期信息的记忆越模糊，推理性能直线下滑[5] - 行业主流解决方案包括上下文压缩、检索增强生成（RAG）以及对模型进行架构级优化，例如GPT-5.2-Codex采用窗口内原生上下文压缩技术，而GPT、Claude、Qwen等企业级版本原生集成RAG功能[7][8][9] RLM方法的核心机制 - RLM的核心思路是将上下文处理“外包”，为模型搭建一个可交互的Python编程环境（REPL）[11][13] - 处理流程分为四步：首先将超长提示词作为字符串变量存入Python环境；接着模型像程序员一样编写代码对文本进行筛选、探查和拆分；随后将复杂任务拆解为子任务并递归调用自身或轻量化子模型处理；最后整合所有子任务结果形成最终输出[14] - 该方法全程由模型自主决策，实现了输入文本长度与模型上下文窗口的解耦，按需处理文本[15] RLM的性能表现 - 实验显示，RLM有效处理规模已突破千万级Token，超过GPT-5等前沿模型原生上下文窗口两个数量级[16] - 在OOLONG-Pairs任务中，基础GPT-5和Qwen3-Coder的F1分数不足0.1%，采用RLM方案后，两款模型的F1分数分别提升至58.00%和23.11%[16] - 在600万至1100万Token规模的BrowseComp-Plus（1K）多文档推理任务中，RLM（GPT-5）的正确率高达91.33%，大幅超越其他方案[16] - 在要求线性扫描几乎所有信息的OOLONG任务中，RLM也实现了双位数的性能提升[17] RLM的成本与适用性 - 从调用成本看，在50分位数指标上，RLM的成本与其他长文本处理方案处于同一水平甚至更低，表明在大多数常规任务中其性价比较有优势[18][19] - 但在95分位数等高百分位区间，RLM成本会出现明显飙升，主要因其推理过程动态，会根据任务复杂度自主决定代码编写和递归调用次数，从而增加API调用次数[20][21] - RLM是一种不修改模型架构的通用推理策略，理论上任何模型都能直接应用该方法[23]

Artificial Intelligence

Artificial Intelligence

递归语言模型RLM