Workflow
上下文压缩
icon
搜索文档
Claude Opus 4.6 登顶编程之王! 杀入 Office 全家桶, 15 亿打工人变天
程序员的那些事· 2026-02-07 09:35
模型发布与核心定位 - Anthropic公司深夜发布Claude Opus 4.6模型,被描述为全球最强编程AI,在编程能力和智能体任务执行上实现“降维打击”[2][3] - 该模型在前代Opus 4.5基础上大幅提升编码技能,并具备更强的自我纠错能力,如精准的代码审查和调试[4][9] - 该模型是Anthropic首款在beta阶段支持100万token上下文的Opus级模型[10] 性能基准与行业对比 - 在多项基准测试中,Claude Opus 4.6编程实力几乎全方位领先,竞争对手Gemini 3 Pro和GPT-5.2望尘莫及[11] - 在ARC-AGI-2测试中,Opus 4.6获得68.8%的高分,超过GPT-5.2-xhigh[14] - 在GDPval-AA知识工作性能评估中,Opus 4.6比GPT-5.2高出约144 Elo分,比上一代Opus 4.5高出190分[45] - 在智能体编程评估Terminal-Bench 2.0中,Opus 4.6获得65.4%的分数,高于Opus 4.5的59.8%和Sonnet 4.5的51.0%[40][53] - 在智能体工具使用T2-bench测试中,Opus 4.6在零售和电信领域分别获得91.9%和99.3%的近满分成绩[52][53] - 在智能体搜索BrowseComp基准上,Opus 4.6以84.0%的表现完胜任何模型[48][53] - 在金融分析任务中,Opus 4.6比几个月前业界顶尖的Sonnet 4.5提升了23%以上[25] - 在长上下文处理能力上,Opus 4.6在MRCR v2的8-needle 1M变体测试中得分为76%,远高于Sonnet 4.5的18.5%,表明其在保持峰值性能时可用上下文数量的质的飞跃[55][60] 产品集成与办公应用 - 新模型已在Excel、PPT中的Claude插件、Claude Code以及API中同步上线[14] - 在Excel中,模型可以遍历文件夹下所有表格抓出差错并同步绘制折线图,处理多表财务模型[15][16][37] - 在PPT中,模型能实时调用,确保从布局、字体到母板的内容符合品牌规范[18] - 模型可通过Claude网页端、开发者平台及各大平台直接使用[18] - 全球约有15亿人在Office全家桶上办公,Opus 4.6正在引发深层的办公效率变革[30] 智能体团队(Agent Swarms)功能 - Claude Code深度集成Opus 4.6,开发者可组建智能体团队协同处理任务,即“智能体群”[66][67][68] - “主智能体”可将任务分发给多个“Claude团队成员”,其他AI可并行开展调研、调试和开发工作,并实时保持沟通协作[71] - 开发者可以越过负责人直接与团队中任何一个成员进行交互,这与运行在单一会话内、只能向主智能体汇报的“子智能体”不同[77] - 智能体团队适用于需要讨论和协作的复杂工作,但token成本更高,因为每个队友都是一个独立的Claude实例[78] 实验与极限测试 - 一项实验中,16个Claude Opus 4.6在无人类干预下并行协作,从零开始用Rust语言编写一个C编译器,目标是能编译Linux内核[83][84] - 该实验消耗了近20亿个输入Token,API成本约2万美元[85] - 最终AI战队编写出一个10万行代码的编译器,能成功编译Linux 6.9内核(支持x86、ARM和RISC-V架构),并能跑通《毁灭战士》、PostgreSQL、Redis等复杂项目[89] 技术特性与定价 - Opus 4.6具备更强的长上下文信息处理能力,能在数十万Token中保存和跟踪信息,漂移更少,并能捕捉到Opus 4.5也会错过的深埋细节[54][61] - 模型引入了“自适应思考”功能,可根据上下文线索感知何时需要使用扩展思考,并提供全新的“思考力度”控制,让开发者对智能、速度和成本拥有更多掌控权[100] - API定价方面,Claude Opus 4.6输入价格为5美元/百万token,输出价格为25美元/百万token[101] - 对于超过200k Token的提示词,将按高级费率计费(每百万输入/输出 Token分别为10美元/37.5美元)[103] - Opus 4.6支持高达128k Token的输出,无需将任务分解为多个请求即可完成更大输出量的任务[104] 行业影响与公司观点 - Anthropic负责人Alex Albert表示,Claude在2025年颠覆了编程,在2026年将彻底重塑知识型工作,尤其是支撑金融和咨询等核心产业的表格、PPT和长文档处理工作[24] - 以前分析师需要忙活好几周的建财务模型、做路演PPT、搞并购分析等工作,现在眨眼间就能完成[27] - 公司内部使用Claude来构建Claude,工程师每天都使用Claude Code编写代码,每一款新模型都会首先在内部工作中进行测试[92][93] - 一场生产力的范式转移已箭在弦上,AI不仅抹平了开发的门槛,也将重塑每一位知识工作者的能力边界[35][36]
真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文
量子位· 2026-01-19 11:48
文章核心观点 - MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)的新方法,旨在解决大模型处理超长文本时的“上下文腐烂”问题,该方法不修改模型架构,而是通过将提示词“外包”给可交互的Python环境,让模型通过自动编程和递归调用来拆解与处理任务,从而使其能够处理远超自身原生上下文窗口的超长文本[1][2][4] 现有长文本处理方法的局限 - 当前大模型在处理超长文本时普遍存在“上下文腐烂”问题,即文本越长,模型对早期信息的记忆越模糊,推理性能直线下滑[5] - 行业主流解决方案包括上下文压缩、检索增强生成(RAG)以及对模型进行架构级优化,例如GPT-5.2-Codex采用窗口内原生上下文压缩技术,而GPT、Claude、Qwen等企业级版本原生集成RAG功能[7][8][9] RLM方法的核心机制 - RLM的核心思路是将上下文处理“外包”,为模型搭建一个可交互的Python编程环境(REPL)[11][13] - 处理流程分为四步:首先将超长提示词作为字符串变量存入Python环境;接着模型像程序员一样编写代码对文本进行筛选、探查和拆分;随后将复杂任务拆解为子任务并递归调用自身或轻量化子模型处理;最后整合所有子任务结果形成最终输出[14] - 该方法全程由模型自主决策,实现了输入文本长度与模型上下文窗口的解耦,按需处理文本[15] RLM的性能表现 - 实验显示,RLM有效处理规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级[16] - 在OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%,采用RLM方案后,两款模型的F1分数分别提升至58.00%和23.11%[16] - 在600万至1100万Token规模的BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达91.33%,大幅超越其他方案[16] - 在要求线性扫描几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升[17] RLM的成本与适用性 - 从调用成本看,在50分位数指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,表明在大多数常规任务中其性价比较有优势[18][19] - 但在95分位数等高百分位区间,RLM成本会出现明显飙升,主要因其推理过程动态,会根据任务复杂度自主决定代码编写和递归调用次数,从而增加API调用次数[20][21] - RLM是一种不修改模型架构的通用推理策略,理论上任何模型都能直接应用该方法[23]
深度|OpenAI产品经理谈Codex爆发式增长背后的AI协作:实现AGI级生产力的真正瓶颈是人类的打字速度!
Z Potentials· 2026-01-19 11:02
文章核心观点 - OpenAI的Coding Agent产品Codex自2024年8月ChatGPT5发布以来,规模已增长20倍,目前每周处理数万亿个字符,成为公司最核心的代码生成模型 [3][19] - Codex的愿景不仅是辅助编写代码,更是成为软件工程团队中具备“主动性”的协作伙伴,旨在无缝融入工作流,极大提升人类工作效率 [9][17][28] - 当前AI发展的一个关键瓶颈并非模型能力,而是人类与模型交互时的物理和认知限制,如打字速度和多任务处理能力 [9][76] - OpenAI通过自下而上、高度灵活的组织结构,以及产品与研究的深度融合,实现了Codex等产品的爆炸式增长和快速迭代 [10][12][19][27] OpenAI的组织与运营模式 - OpenAI的组织结构强调自下而上,赋予团队高度自主性和灵活性,以快速尝试和适应不确定的技术与市场环境 [12] - 公司擅长讨论一年或更久之后的长期愿景,但对于数月内的战术性目标,更倾向于通过实证探索来解决,采取“准备、开火、瞄准”的模糊目标策略 [13] - 这种高速发展依赖于汇聚全球顶尖的精英人才,其个体驱动力和自主性构成了组织模式的基石,难以被简单复制 [14] Codex的产品定位与爆发式增长 - Codex是OpenAI的Coding Agent,可作为IDE扩展或终端工具安装,用于回答代码问题、编写、运行测试及处理软件开发生命周期中的多项工作 [15] - 产品定位是成为软件工程团队的“团队成员”,未来将参与从早期创意规划到后期验证、部署和维护的全过程,而不仅限于代码自动补全 [15][18] - 增长关键源于产品形态的调整:从部署门槛较高的云端异步产品(Codex Cloud),转向与开发者日常工具深度整合的本地交互式产品,降低了用户使用门槛并建立了高效的反馈循环 [21][22][23] - 内部试用与市场反馈存在差异,公司内部因熟悉与模型交互而能高效使用异步模式,但普通用户更需要符合直觉的交互方式 [24] 技术栈协同与能力提升 - Codex能力的提升是模型、API和工具环境三个技术栈层面协同优化、并行推进的结果 [25][27] - 最新模型GPT 5.11 CodexMax在执行效率上比前代提升约30%,并解锁了更强的智能和推理能力,能够解决极其棘手的漏洞 [24] - 通过“上下文压缩”等技术,使模型能够长时间持续运行(如通宵或24小时),这需要模型、API接口和工具环境三者的协同支持 [26] - 公司专注于让模型通过命令行界面在沙箱环境中运行,这种针对特定模式的深度优化加速了研发进度 [27] 实际应用案例与效率提升 - Codex助力Sora团队在18天内完成了Sora安卓应用从0到1的开发,并在总共28天内实现公众发布,该应用随后成为App Store排名第一的应用 [47][48][49] - 在Atlas浏览器项目中,以前需要两三名工程师花费两三周的任务,现在一名工程师一周即可完成,效率提升显著 [52][54] - 产品应用已超越工程部门,设计团队使用Codex快速制作动画原型,产品营销人员可直接在Slack上修改文案,体现了“压缩人才层级”的趋势 [46][53] - Codex被用于编写一次性代码,如快速构建交互式数据查看器,推动了代码的普及化应用 [46] 对AI发展、编程及未来工作的看法 - 构建任何Agent的本质都应是构建Coding Agent,因为模型使用计算机的最佳方式就是编写代码 [9] - 未来岗位界限将变得模糊,自然语言成为新的、灵活性极高的抽象层级,但技术的抽象层级提升将是渐进式的 [55] - 在AI时代,对目标用户需求的深度洞察比单纯的技术执行力更为重要,这更有利于垂直领域的AI创业公司 [58] - 对于软件工程教育,理解系统构建原理、系统工程能力及团队协作技能将比掌握具体的编码语法更为重要 [72][74] - 交互界面的未来可能超越聊天模式,向更情境化、低门槛的方式演进,例如设想中的通过滑动视频流与Agent交互的应用 [38][40] 产品开发与评估重点 - 产品团队关注避免过度开发深度功能,重点监测如7日留存率等早期用户留存指标,并以全新用户身份体验产品流程 [59] - 高度重视来自社交媒体(尤其是Reddit)的真实用户反馈,特别是负面评价,以发现特定功能问题并指导优化 [60][62] - 建议用户以最真实、棘手的任务来测试Codex,以此作为与这位“新团队成员”建立信任和熟悉度的最佳方式 [68][70]
10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注
新浪财经· 2025-10-22 07:26
模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR,这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容,旨在降低大模型计算开销,例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分:专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构,前者擅长局部细节处理,后者能捕获整体知识信息[4] - 实验表明,当压缩比<10×时模型可达97% OCR精度,即使在20×压缩比下精度仍保持约60%,在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美,被评价为"AI的JPEG时刻",前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力,能处理图表、化学分子式等复杂元素,拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看,AI模型超过99%的输入和输出都将是光子,没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性,可从少量视觉tokens有效解码超过10倍数量文本tokens,具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据,为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本,还能将图表转换为表格数据、分子式输出为SMILES格式,展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]
Multi-Agent 协作兴起,RAG 注定只是过渡方案?
机器之心· 2025-07-19 09:31
从 RAG 检索增强到多层级状态演化,AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进,为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构,将对话 memory 分为短期、中期和长期三层,通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想,将固定长度上下文视为主内存,通过函数调用在主上下文和外部存储间分页调度,支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成(RAG)方式,通过向量索引检索用户相关信息并注入模型输入,实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入,依赖向量索引 [2] - AI Memory 注重状态持续性,需维护多层级 memory 架构并管理时序与优先级,结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补,RAG 增强知识性,Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限,AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]