Workflow
自适应思考
icon
搜索文档
Claude Opus 4.6 登顶编程之王! 杀入 Office 全家桶, 15 亿打工人变天
程序员的那些事· 2026-02-07 09:35
模型发布与核心定位 - Anthropic公司深夜发布Claude Opus 4.6模型,被描述为全球最强编程AI,在编程能力和智能体任务执行上实现“降维打击”[2][3] - 该模型在前代Opus 4.5基础上大幅提升编码技能,并具备更强的自我纠错能力,如精准的代码审查和调试[4][9] - 该模型是Anthropic首款在beta阶段支持100万token上下文的Opus级模型[10] 性能基准与行业对比 - 在多项基准测试中,Claude Opus 4.6编程实力几乎全方位领先,竞争对手Gemini 3 Pro和GPT-5.2望尘莫及[11] - 在ARC-AGI-2测试中,Opus 4.6获得68.8%的高分,超过GPT-5.2-xhigh[14] - 在GDPval-AA知识工作性能评估中,Opus 4.6比GPT-5.2高出约144 Elo分,比上一代Opus 4.5高出190分[45] - 在智能体编程评估Terminal-Bench 2.0中,Opus 4.6获得65.4%的分数,高于Opus 4.5的59.8%和Sonnet 4.5的51.0%[40][53] - 在智能体工具使用T2-bench测试中,Opus 4.6在零售和电信领域分别获得91.9%和99.3%的近满分成绩[52][53] - 在智能体搜索BrowseComp基准上,Opus 4.6以84.0%的表现完胜任何模型[48][53] - 在金融分析任务中,Opus 4.6比几个月前业界顶尖的Sonnet 4.5提升了23%以上[25] - 在长上下文处理能力上,Opus 4.6在MRCR v2的8-needle 1M变体测试中得分为76%,远高于Sonnet 4.5的18.5%,表明其在保持峰值性能时可用上下文数量的质的飞跃[55][60] 产品集成与办公应用 - 新模型已在Excel、PPT中的Claude插件、Claude Code以及API中同步上线[14] - 在Excel中,模型可以遍历文件夹下所有表格抓出差错并同步绘制折线图,处理多表财务模型[15][16][37] - 在PPT中,模型能实时调用,确保从布局、字体到母板的内容符合品牌规范[18] - 模型可通过Claude网页端、开发者平台及各大平台直接使用[18] - 全球约有15亿人在Office全家桶上办公,Opus 4.6正在引发深层的办公效率变革[30] 智能体团队(Agent Swarms)功能 - Claude Code深度集成Opus 4.6,开发者可组建智能体团队协同处理任务,即“智能体群”[66][67][68] - “主智能体”可将任务分发给多个“Claude团队成员”,其他AI可并行开展调研、调试和开发工作,并实时保持沟通协作[71] - 开发者可以越过负责人直接与团队中任何一个成员进行交互,这与运行在单一会话内、只能向主智能体汇报的“子智能体”不同[77] - 智能体团队适用于需要讨论和协作的复杂工作,但token成本更高,因为每个队友都是一个独立的Claude实例[78] 实验与极限测试 - 一项实验中,16个Claude Opus 4.6在无人类干预下并行协作,从零开始用Rust语言编写一个C编译器,目标是能编译Linux内核[83][84] - 该实验消耗了近20亿个输入Token,API成本约2万美元[85] - 最终AI战队编写出一个10万行代码的编译器,能成功编译Linux 6.9内核(支持x86、ARM和RISC-V架构),并能跑通《毁灭战士》、PostgreSQL、Redis等复杂项目[89] 技术特性与定价 - Opus 4.6具备更强的长上下文信息处理能力,能在数十万Token中保存和跟踪信息,漂移更少,并能捕捉到Opus 4.5也会错过的深埋细节[54][61] - 模型引入了“自适应思考”功能,可根据上下文线索感知何时需要使用扩展思考,并提供全新的“思考力度”控制,让开发者对智能、速度和成本拥有更多掌控权[100] - API定价方面,Claude Opus 4.6输入价格为5美元/百万token,输出价格为25美元/百万token[101] - 对于超过200k Token的提示词,将按高级费率计费(每百万输入/输出 Token分别为10美元/37.5美元)[103] - Opus 4.6支持高达128k Token的输出,无需将任务分解为多个请求即可完成更大输出量的任务[104] 行业影响与公司观点 - Anthropic负责人Alex Albert表示,Claude在2025年颠覆了编程,在2026年将彻底重塑知识型工作,尤其是支撑金融和咨询等核心产业的表格、PPT和长文档处理工作[24] - 以前分析师需要忙活好几周的建财务模型、做路演PPT、搞并购分析等工作,现在眨眼间就能完成[27] - 公司内部使用Claude来构建Claude,工程师每天都使用Claude Code编写代码,每一款新模型都会首先在内部工作中进行测试[92][93] - 一场生产力的范式转移已箭在弦上,AI不仅抹平了开发的门槛,也将重塑每一位知识工作者的能力边界[35][36]
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
机器之心· 2025-09-01 14:46
研究背景与问题 - 当前业界顶尖大模型面临"过度思考"难题,采用始终开启的详细推理模式,无论问题简单与否[3] - 现有解决方案如DeepSeek-V3.1需要用户手动介入快慢思考切换,GPT-5依赖庞大高成本的专家路由机制,距离真正智能思考仍有距离[3] - 这些方案或将判断压力转移给用户,或受限于复杂系统架构和高昂部署成本[3] 技术突破 - 腾讯混元团队与中科院自动化所合作研发R-4B多模态大模型,通过自适应思考(auto-thinking)机制实现智能思维模式切换[5] - 模型采用4.82B参数规模,基于Qwen3-4B语言模型和SigLip-400M视觉模型[11] - 在OpenCompass多模态学术榜单20B以内规模模型中性能排名第一,平均得分75.5[10][11] - 超越多个更大规模模型,包括InternVL3-14B(15.1B参数,得分75.2)和Kimi-VL-A3B-Thinking-2506(16.48B参数,得分74.3)[7][11] 核心创新 - 采用双模退火(bi-mode annealing)训练策略,使模型同时掌握思考与非思考能力[16] - 开发双模策略优化(BPO)强化学习算法,仅依赖基于规则的奖励信号,无需精心设计的奖励函数或特定数据[18] - 通过混合双模rollout机制,强制模型在训练中同时探索思考模式和非思考模式轨迹,避免单一模式偏好[18] - 模型能自动判别问题复杂度:简单问题直接响应,复杂任务自动切换到深度思考模式[21] 性能表现 - 在多项基准测试中表现卓越:MMMUval得分68.1,MMStar得分73.1,MMBenchV1.1-ENdev得分84.9[25] - 在推理效率方面实现提升,简单任务下无需消耗更多Token[25] - 在OpenCompass多模态推理榜单开源模型中位列第一,得分57.6[12] - 超越GPT-5-nano-20250807(60.7分)和Gemini-2.0-Pro(56.6分)等商业模型[12] 应用前景 - 适用于日常问答分析,自动切换简单查询和复杂推理模式,提升自动化处理效率[27] - 在科学研究中可解析科学图表的多步关系,精准解读数据[29] - 支持边缘设备部署,凭借较少参数和自适应思考降低延迟和能耗,适用于即时问答系统[29] - 消费级显卡即可运行,支持笔记本电脑、智能座舱、智能家居等低功耗场景[12] 技术影响 - 解决了多模态大模型的思考困境,在小尺寸模型上探索了自适应思考的可行性[33] - 在AI计算与推理成本飙升的背景下,提供轻量化、智能化设计解决方案[33] - 模型已全面开源,支持vLLM高效推理,下载量已突破10,000次[12][34]