上下文压缩 - 财报，业绩电话会，研报，新闻

上下文压缩

搜索文档

Claude Opus 4.6 登顶编程之王! 杀入 Office 全家桶, 15 亿打工人变天

程序员的那些事· 2026-02-07 09:35

模型发布与核心定位 - Anthropic公司深夜发布Claude Opus 4.6模型，被描述为全球最强编程AI，在编程能力和智能体任务执行上实现“降维打击”[2][3] - 该模型在前代Opus 4.5基础上大幅提升编码技能，并具备更强的自我纠错能力，如精准的代码审查和调试[4][9] - 该模型是Anthropic首款在beta阶段支持100万token上下文的Opus级模型[10] 性能基准与行业对比 - 在多项基准测试中，Claude Opus 4.6编程实力几乎全方位领先，竞争对手Gemini 3 Pro和GPT-5.2望尘莫及[11] - 在ARC-AGI-2测试中，Opus 4.6获得68.8%的高分，超过GPT-5.2-xhigh[14] - 在GDPval-AA知识工作性能评估中，Opus 4.6比GPT-5.2高出约144 Elo分，比上一代Opus 4.5高出190分[45] - 在智能体编程评估Terminal-Bench 2.0中，Opus 4.6获得65.4%的分数，高于Opus 4.5的59.8%和Sonnet 4.5的51.0%[40][53] - 在智能体工具使用T2-bench测试中，Opus 4.6在零售和电信领域分别获得91.9%和99.3%的近满分成绩[52][53] - 在智能体搜索BrowseComp基准上，Opus 4.6以84.0%的表现完胜任何模型[48][53] - 在金融分析任务中，Opus 4.6比几个月前业界顶尖的Sonnet 4.5提升了23%以上[25] - 在长上下文处理能力上，Opus 4.6在MRCR v2的8-needle 1M变体测试中得分为76%，远高于Sonnet 4.5的18.5%，表明其在保持峰值性能时可用上下文数量的质的飞跃[55][60] 产品集成与办公应用 - 新模型已在Excel、PPT中的Claude插件、Claude Code以及API中同步上线[14] - 在Excel中，模型可以遍历文件夹下所有表格抓出差错并同步绘制折线图，处理多表财务模型[15][16][37] - 在PPT中，模型能实时调用，确保从布局、字体到母板的内容符合品牌规范[18] - 模型可通过Claude网页端、开发者平台及各大平台直接使用[18] - 全球约有15亿人在Office全家桶上办公，Opus 4.6正在引发深层的办公效率变革[30] 智能体团队（Agent Swarms）功能 - Claude Code深度集成Opus 4.6，开发者可组建智能体团队协同处理任务，即“智能体群”[66][67][68] - “主智能体”可将任务分发给多个“Claude团队成员”，其他AI可并行开展调研、调试和开发工作，并实时保持沟通协作[71] - 开发者可以越过负责人直接与团队中任何一个成员进行交互，这与运行在单一会话内、只能向主智能体汇报的“子智能体”不同[77] - 智能体团队适用于需要讨论和协作的复杂工作，但token成本更高，因为每个队友都是一个独立的Claude实例[78] 实验与极限测试 - 一项实验中，16个Claude Opus 4.6在无人类干预下并行协作，从零开始用Rust语言编写一个C编译器，目标是能编译Linux内核[83][84] - 该实验消耗了近20亿个输入Token，API成本约2万美元[85] - 最终AI战队编写出一个10万行代码的编译器，能成功编译Linux 6.9内核（支持x86、ARM和RISC-V架构），并能跑通《毁灭战士》、PostgreSQL、Redis等复杂项目[89] 技术特性与定价 - Opus 4.6具备更强的长上下文信息处理能力，能在数十万Token中保存和跟踪信息，漂移更少，并能捕捉到Opus 4.5也会错过的深埋细节[54][61] - 模型引入了“自适应思考”功能，可根据上下文线索感知何时需要使用扩展思考，并提供全新的“思考力度”控制，让开发者对智能、速度和成本拥有更多掌控权[100] - API定价方面，Claude Opus 4.6输入价格为5美元/百万token，输出价格为25美元/百万token[101] - 对于超过200k Token的提示词，将按高级费率计费（每百万输入/输出 Token分别为10美元/37.5美元）[103] - Opus 4.6支持高达128k Token的输出，无需将任务分解为多个请求即可完成更大输出量的任务[104] 行业影响与公司观点 - Anthropic负责人Alex Albert表示，Claude在2025年颠覆了编程，在2026年将彻底重塑知识型工作，尤其是支撑金融和咨询等核心产业的表格、PPT和长文档处理工作[24] - 以前分析师需要忙活好几周的建财务模型、做路演PPT、搞并购分析等工作，现在眨眼间就能完成[27] - 公司内部使用Claude来构建Claude，工程师每天都使用Claude Code编写代码，每一款新模型都会首先在内部工作中进行测试[92][93] - 一场生产力的范式转移已箭在弦上，AI不仅抹平了开发的门槛，也将重塑每一位知识工作者的能力边界[35][36]

智能体群

上下文压缩

自适应思考

Artificial Intelligence

Artificial Intelligence

Claude Opus 4.6

Gemini 3 Pro

真·开外挂！MIT新研究：架构0改动，让大模型解锁千万级上下文

量子位· 2026-01-19 11:48

文章核心观点 - MIT CSAIL研究团队提出了一种名为递归语言模型（RLM）的新方法，旨在解决大模型处理超长文本时的“上下文腐烂”问题，该方法不修改模型架构，而是通过将提示词“外包”给可交互的Python环境，让模型通过自动编程和递归调用来拆解与处理任务，从而使其能够处理远超自身原生上下文窗口的超长文本[1][2][4] 现有长文本处理方法的局限 - 当前大模型在处理超长文本时普遍存在“上下文腐烂”问题，即文本越长，模型对早期信息的记忆越模糊，推理性能直线下滑[5] - 行业主流解决方案包括上下文压缩、检索增强生成（RAG）以及对模型进行架构级优化，例如GPT-5.2-Codex采用窗口内原生上下文压缩技术，而GPT、Claude、Qwen等企业级版本原生集成RAG功能[7][8][9] RLM方法的核心机制 - RLM的核心思路是将上下文处理“外包”，为模型搭建一个可交互的Python编程环境（REPL）[11][13] - 处理流程分为四步：首先将超长提示词作为字符串变量存入Python环境；接着模型像程序员一样编写代码对文本进行筛选、探查和拆分；随后将复杂任务拆解为子任务并递归调用自身或轻量化子模型处理；最后整合所有子任务结果形成最终输出[14] - 该方法全程由模型自主决策，实现了输入文本长度与模型上下文窗口的解耦，按需处理文本[15] RLM的性能表现 - 实验显示，RLM有效处理规模已突破千万级Token，超过GPT-5等前沿模型原生上下文窗口两个数量级[16] - 在OOLONG-Pairs任务中，基础GPT-5和Qwen3-Coder的F1分数不足0.1%，采用RLM方案后，两款模型的F1分数分别提升至58.00%和23.11%[16] - 在600万至1100万Token规模的BrowseComp-Plus（1K）多文档推理任务中，RLM（GPT-5）的正确率高达91.33%，大幅超越其他方案[16] - 在要求线性扫描几乎所有信息的OOLONG任务中，RLM也实现了双位数的性能提升[17] RLM的成本与适用性 - 从调用成本看，在50分位数指标上，RLM的成本与其他长文本处理方案处于同一水平甚至更低，表明在大多数常规任务中其性价比较有优势[18][19] - 但在95分位数等高百分位区间，RLM成本会出现明显飙升，主要因其推理过程动态，会根据任务复杂度自主决定代码编写和递归调用次数，从而增加API调用次数[20][21] - RLM是一种不修改模型架构的通用推理策略，理论上任何模型都能直接应用该方法[23]

Artificial Intelligence

Artificial Intelligence

递归语言模型RLM

深度｜OpenAI产品经理谈Codex爆发式增长背后的AI协作：实现AGI级生产力的真正瓶颈是人类的打字速度！

Z Potentials· 2026-01-19 11:02

文章核心观点 - OpenAI的Coding Agent产品Codex自2024年8月ChatGPT5发布以来，规模已增长20倍，目前每周处理数万亿个字符，成为公司最核心的代码生成模型 [3][19] - Codex的愿景不仅是辅助编写代码，更是成为软件工程团队中具备“主动性”的协作伙伴，旨在无缝融入工作流，极大提升人类工作效率 [9][17][28] - 当前AI发展的一个关键瓶颈并非模型能力，而是人类与模型交互时的物理和认知限制，如打字速度和多任务处理能力 [9][76] - OpenAI通过自下而上、高度灵活的组织结构，以及产品与研究的深度融合，实现了Codex等产品的爆炸式增长和快速迭代 [10][12][19][27] OpenAI的组织与运营模式 - OpenAI的组织结构强调自下而上，赋予团队高度自主性和灵活性，以快速尝试和适应不确定的技术与市场环境 [12] - 公司擅长讨论一年或更久之后的长期愿景，但对于数月内的战术性目标，更倾向于通过实证探索来解决，采取“准备、开火、瞄准”的模糊目标策略 [13] - 这种高速发展依赖于汇聚全球顶尖的精英人才，其个体驱动力和自主性构成了组织模式的基石，难以被简单复制 [14] Codex的产品定位与爆发式增长 - Codex是OpenAI的Coding Agent，可作为IDE扩展或终端工具安装，用于回答代码问题、编写、运行测试及处理软件开发生命周期中的多项工作 [15] - 产品定位是成为软件工程团队的“团队成员”，未来将参与从早期创意规划到后期验证、部署和维护的全过程，而不仅限于代码自动补全 [15][18] - 增长关键源于产品形态的调整：从部署门槛较高的云端异步产品（Codex Cloud），转向与开发者日常工具深度整合的本地交互式产品，降低了用户使用门槛并建立了高效的反馈循环 [21][22][23] - 内部试用与市场反馈存在差异，公司内部因熟悉与模型交互而能高效使用异步模式，但普通用户更需要符合直觉的交互方式 [24] 技术栈协同与能力提升 - Codex能力的提升是模型、API和工具环境三个技术栈层面协同优化、并行推进的结果 [25][27] - 最新模型GPT 5.11 CodexMax在执行效率上比前代提升约30%，并解锁了更强的智能和推理能力，能够解决极其棘手的漏洞 [24] - 通过“上下文压缩”等技术，使模型能够长时间持续运行（如通宵或24小时），这需要模型、API接口和工具环境三者的协同支持 [26] - 公司专注于让模型通过命令行界面在沙箱环境中运行，这种针对特定模式的深度优化加速了研发进度 [27] 实际应用案例与效率提升 - Codex助力Sora团队在18天内完成了Sora安卓应用从0到1的开发，并在总共28天内实现公众发布，该应用随后成为App Store排名第一的应用 [47][48][49] - 在Atlas浏览器项目中，以前需要两三名工程师花费两三周的任务，现在一名工程师一周即可完成，效率提升显著 [52][54] - 产品应用已超越工程部门，设计团队使用Codex快速制作动画原型，产品营销人员可直接在Slack上修改文案，体现了“压缩人才层级”的趋势 [46][53] - Codex被用于编写一次性代码，如快速构建交互式数据查看器，推动了代码的普及化应用 [46] 对AI发展、编程及未来工作的看法 - 构建任何Agent的本质都应是构建Coding Agent，因为模型使用计算机的最佳方式就是编写代码 [9] - 未来岗位界限将变得模糊，自然语言成为新的、灵活性极高的抽象层级，但技术的抽象层级提升将是渐进式的 [55] - 在AI时代，对目标用户需求的深度洞察比单纯的技术执行力更为重要，这更有利于垂直领域的AI创业公司 [58] - 对于软件工程教育，理解系统构建原理、系统工程能力及团队协作技能将比掌握具体的编码语法更为重要 [72][74] - 交互界面的未来可能超越聊天模式，向更情境化、低门槛的方式演进，例如设想中的通过滑动视频流与Agent交互的应用 [38][40] 产品开发与评估重点 - 产品团队关注避免过度开发深度功能，重点监测如7日留存率等早期用户留存指标，并以全新用户身份体验产品流程 [59] - 高度重视来自社交媒体（尤其是Reddit）的真实用户反馈，特别是负面评价，以发现特定功能问题并指导优化 [60][62] - 建议用户以最真实、棘手的任务来测试Codex，以此作为与这位“新团队成员”建立信任和熟悉度的最佳方式 [68][70]

10倍压缩率、97%解码精度！DeepSeek开源新模型为何赢得海内外关注

新浪财经· 2025-10-22 07:26

模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR，这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容，旨在降低大模型计算开销，例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成，其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分：专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构，前者擅长局部细节处理，后者能捕获整体知识信息[4] - 实验表明，当压缩比<10×时模型可达97% OCR精度，即使在20×压缩比下精度仍保持约60%，在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美，被评价为"AI的JPEG时刻"，前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力，能处理图表、化学分子式等复杂元素，拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看，AI模型超过99%的输入和输出都将是光子，没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性，可从少量视觉tokens有效解码超过10倍数量文本tokens，具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据，为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本，还能将图表转换为表格数据、分子式输出为SMILES格式，展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]

Artificial Intelligence

Artificial Intelligence

DeepSeek-OCR

Multi-Agent 协作兴起，RAG 注定只是过渡方案？

机器之心· 2025-07-19 09:31

从 RAG 检索增强到多层级状态演化，AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进，为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构，将对话 memory 分为短期、中期和长期三层，通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想，将固定长度上下文视为主内存，通过函数调用在主上下文和外部存储间分页调度，支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成（RAG）方式，通过向量索引检索用户相关信息并注入模型输入，实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入，依赖向量索引 [2] - AI Memory 注重状态持续性，需维护多层级 memory 架构并管理时序与优先级，结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补，RAG 增强知识性，Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限，AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]