Claude Sonnet 4.6
搜索文档
春节AI 模型大战,谁是最大赢家?
虎嗅APP· 2026-02-20 11:20
文章核心观点 - 2026年开年,国产大模型在春节前后集中发布,标志着行业从追求基准测试分数的“做题家”向能处理复杂任务的“实干派”集体转型,核心是检验模型在实际应用场景中的任务完成能力 [6][7] - 北京海淀区作为国产大模型领跑者的聚集地,其独特的“海淀基因”——即从基础研究到商业落地的完整创新生态——是推动此次转型的深层原因 [7][15] - 全球大模型产业竞争已进入比拼“实干能力”的阶段,国产大模型的这次集中转型和快速迭代,为中国人工智能产业提供了弯道超车的窗口期 [21][23] 更加务实的智能军团 - 2026年1月至2月春节前后,多家国产大模型公司密集发布新产品,包括月之暗面开源Kimi K2.5、字节发布视频生成模型Seedance 2.0、智谱AI发布GLM-5等,海外厂商如OpenAI和Anthropic也同期有重要更新 [9] - 行业评测维度转向务实,从追求标准答案和响应速度,转向考察在开放环境中的任务完成度、算力成本与落地成效,大模型加速进入商业化深水区 [10] - 智谱GLM-5在HumanEval代码通过率达到96.2%,并支持跨文件代码重构等复杂工程任务 [11] - 字节Seedance 2.0通过多模态参考系统(如指定色调、角色脸、视频动作、音乐节奏)降低了视频创作的试错成本,更贴近电商广告等商业场景对确定性的需求,与主要依赖文本提示词的OpenAI Sora等形成对照 [11] - 大模型的载体向具身智能扩展,例如银河通用发布的Galbot S1重载机器人实现零遥操全自主作业,双臂负载达50公斤,聚焦室内场景泛化能力 [12] - 春节场景(家庭聚会、长途出行、内容创作)提供了复杂的多任务协调需求,成为检验大模型任务分解、工具调用等“实干能力”的压力测试场 [14] 海淀基因 - 国产大模型领跑者高度聚集于北京海淀区,形成了一个高密度的创新生态,企业间距离多在15分钟车程内,例如月之暗面、字节跳动、智谱AI、生数科技、银河通用等公司位置邻近 [17] - 海淀区构建了从底层高校研究(清华、北大)、中间层算力基础设施到应用层场景测试的完整产业链,这种密度显著缩短了技术迭代周期 [18] - 与硅谷追求“通用智能”不同,海淀系企业更强调“垂直穿透”,在产业链各环节有代表性企业布局,如百度(全栈)、寒武纪(芯片)、智谱清研(B端)、快手可灵(文娱)、字节(C端)、月之暗面(长文本) [18] - 政策环境提供关键支持,北京市及海淀区出台产业支持政策,海淀区核心产业集群规模从2023年的2300亿元增长至超过3500亿元,并设立规模达200亿元的中关村科学城科技成长基金作为“耐心资本” [19] - 海淀区的价值在于其作为“创新方法论”的输出地,继承了互联网创业时期的工程师文化、务实性和“快速迭代、小步快跑”的方法论,赋予企业更强的工程化与商业化能力 [19] - 海淀的“全栈覆盖”生态使其成为全球AI版图中少数能与硅谷进行系统性对话的区域之一,其集聚效应是中国庞大的数字化应用场景、完整制造业体系等国家能力在微观层面的投射 [20] 更好的时代 - 春节档的AI大战标志着国产大模型进入产业价值验证的关键周期,真实用户数据与交付体验将帮助企业加速迭代,暴露并修正多智能体协作稳定性、长视频时序一致性等问题 [23] - 国产大模型的进展已影响全球竞争格局,OpenAI、Google等巨头开始密集推出针对企业级市场的高性价比推理模型 [23] - 国产模型技术迭代节奏持续加快,产品更新周期从以年为单位缩短至以月甚至以周计算,这种敏捷响应能力为中国AI产业提供了弯道超车的窗口期 [23] - 大模型正从“对话工具”进化为“数字员工”,这将带来社会影响的指数级放大,要求政策层面在降低创新成本的同时,建立适配新技术形态的治理框架 [24] - 全球新一轮大模型产业变革的方向与节奏,正日益取决于中国创新体系的突破能力与本土生态的支撑强度 [25]
Anthropic发布新AI模型:操控计算机能力大幅提升;微软本十年末前将向全球南方AI领域投资500亿美元丨AIGC日报
创业邦· 2026-02-19 09:08
Anthropic发布新一代AI模型Claude Sonnet 4.6 - 核心观点:Anthropic发布新AI模型Claude Sonnet 4.6,其在执行多步骤计算机操作方面能力大幅提升,同时增强了抵御安全威胁的能力 [2] - 模型能力:该模型可以执行需要多个步骤的计算机操作,例如填写网页表单,然后跨多个浏览器标签页协调信息 [2] - 性能评估:在操作计算机方面,该模型仍落后于最熟练的人类,但其进步速度惊人 [2] - 安全性提升:Sonnet 4.6在抵御提示词注入攻击等安全威胁方面表现更好 [2] 印度AI领域动态与争议 - 核心观点:印度AI影响力峰会期间发生机器狗“自研”争议,同时国际科技公司宣布对印度AI生态进行大规模投资 [2][3] - 展会争议:在印度人工智能影响力峰会期间,加尔戈蒂亚斯大学团队展示的所谓自主研发的机器狗,被证实是从中国企业宇树科技采购的现成产品,校方已承认此事 [2] - 高通投资:高通公司计划通过其风险投资部门高通创投,向印度科技和人工智能初创企业生态系统投资高达1.5亿美元,投资重点在于汽车、物联网、机器人技术和移动领域的AI应用 [3] - 微软投资:微软在印度人工智能影响力峰会上宣布,计划在本十年末前投资500亿美元,助力将人工智能技术推广至全球南方各国 [2] 微软全球AI影响力投资计划 - 核心观点:微软宣布一项面向全球南方国家的500亿美元AI投资计划,涵盖基础设施、技能培训、本地创新等多个方面 [2] - 投资规模:微软计划在本十年末前投资500亿美元 [2] - 计划内容:该计划旨在发挥AI影响力,包括建设AI普及所需的基础设施、通过技术与技能培训赋能学校及非营利机构人员、强化多语言多元文化的AI能力、推动满足社区需求的本地AI创新、评估AI普及情况以为未来政策与投资提供指导 [2]
Claude最强Sonnet模型4.6来了,百万token上下文
机器之心· 2026-02-18 20:51
文章核心观点 - Anthropic公司在大年初二发布了其最新的Claude Sonnet 4.6模型,该公司称其为目前能力最强的Sonnet模型 [2] - 新模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等多个方面进行了全面升级 [4] - 在GDPval-AA测试中,Claude Sonnet 4.6的性能甚至略微领先于该公司不久前发布的更高阶模型Opus 4.6 [6] 模型发布与定价 - Claude Sonnet 4.6的Beta版包含100万token的上下文窗口 [5] - 对于免费和专业版用户,该模型现已成为claude.ai和Claude Cowork的默认模型 [5] - 定价与Sonnet 4.5保持一致,为每百万输入token 3美元,每百万输出token 15美元 [5] - 模型现已面向所有Claude套餐、Claude Cowork、Claude Code、API以及所有主流云平台开放 [22] - 免费套餐已默认升级至Sonnet 4.6版本,并包含文件创建、连接器、技能和压缩功能 [22] 计算机使用能力 - 在计算机使用基准测试OSWorld上,Sonnet模型的性能在过去十六个月里稳步提升 [10] - 早期Sonnet 4.6用户在浏览复杂电子表格、填写多步骤网页表单等任务中,看到了达到人类水平的能力 [10] - 在OSWorld-Verified基准测试中,Sonnet 4.6的“智能体计算机使用”得分达到72.5%,较Sonnet 4.5的61.4%有显著提升 [16] - 该模型在抵抗提示注入攻击方面有重大改进,安全性表现与Opus 4.6相近 [13] 综合性能基准测试 - 在终端编码基准测试Terminal-Bench 2.0中,Sonnet 4.6得分为59.1%,高于Sonnet 4.5的51.0% [16] - 在编码基准测试SWE-bench Verified中,Sonnet 4.6得分为79.6%,高于Sonnet 4.5的77.2% [16] - 在工具使用基准测试T2-bench中,Sonnet 4.6在零售和电信场景的得分分别为91.7%和97.9% [16] - 在智能体搜索基准测试BrowseComp中,Sonnet 4.6得分为74.7%,远高于Sonnet 4.5的43.9% [16] - 在多学科推理基准测试Humanity‘s Last Exam中,Sonnet 4.6在使用工具和未使用工具的情况下得分分别为49.0%和33.2% [16] - 在金融分析基准测试Finance Agent v1.1中,Sonnet 4.6得分为63.3%,高于Sonnet 4.5的54.5% [16] - 在办公任务基准测试GDPval-AA Elo中,Sonnet 4.6得分为1633,高于Sonnet 4.5的1276 [16] - 在解决新问题基准测试ARC-AGI-2中,Sonnet 4.6得分为58.3%,远高于Sonnet 4.5的13.6% [16] - 在研究生级推理基准测试GPQA Diamond中,Sonnet 4.6得分为89.9%,高于Sonnet 4.5的83.4% [16] - 在视觉推理基准测试MMMU-Pro中,Sonnet 4.6在使用工具和未使用工具的情况下得分分别为75.6%和74.5% [16] - 在多语言问答基准测试MMLU中,Sonnet 4.6得分为89.3% [16] 用户反馈与长上下文优势 - 在早期Claude Code测试中,用户大约有70%的时间更喜欢Sonnet 4.6而非Sonnet 4.5 [17] - 相比于前沿模型Opus 4.5,用户甚至有59%的时间更喜欢Sonnet 4.6 [18] - 用户评价Sonnet 4.6在过度工程化和“偷懒”方面显著减少,在指令遵循方面有明显改进,并报告了更少的虚假成功声明、更少的幻觉,以及在多步骤任务中更一致的执行力 [18] - 100万token的上下文窗口使其能在单个请求中容纳整个代码库、长篇合同或数十篇研究论文,并能有效地在所有上下文中进行推理,在长程规划方面表现更佳 [18] - 在Vending-Bench Arena评估中,Sonnet 4.6发展出一种新策略:在模拟的前十个月大力投资于产能,然后在最后阶段急剧转向专注于盈利能力,使其最终远远领先于竞争对手 [19][21]
AI进化速递 | 马斯克官宣Grok 4.2公测版上线
第一财经· 2026-02-18 20:12
行业战略合作与投资 - 英伟达和Meta宣布建立多年战略合作伙伴关系,合作范围覆盖本地部署、云端和AI基础设施 [1] - 高通承诺向印度人工智能战略基金投资高达1.5亿美元 [1] - 微软计划在本十年末前向全球南方AI领域投资500亿美元 [1] AI模型与产品发布 - xAI公司创始人马斯克官宣Grok 4.2公开测试版上线,该版本具备快速学习能力 [1] - Anthropic公司发布新一代AI模型Claude Sonnet 4.6 [1] - OpenClaw发布2026.2.17版本,更新包括Sonnet 4.6模型集成、1M上下文测试、从聊天中生成子代理以及iOS分享扩展等功能 [1] 硬件制造与实体应用 - 特斯拉首辆Cybercab在得州超级工厂正式下线 [1] - 家乐福与Vusion达成合作,将在法国大规模部署智能商店 [1]
Claude最新Sonnet:Opus级智能,性价比王炸,OpenClaw天选API
量子位· 2026-02-18 14:56
文章核心观点 - 春节假期期间,全球大模型竞争激烈,Anthropic公司发布了其Claude Sonnet系列的最新版本4.6,该版本在性能上实现全方位升级,尤其在计算机操作、金融分析等领域表现突出,且定价策略极具竞争力,旨在通过高性价比产品占领市场[1][2][7][39] Claude Sonnet 4.6 产品发布与核心升级 - Anthropic于大年初二发布了Claude Sonnet 4.6,被描述为“史上最强Sonnet”[2][12] - 计算机操作能力是本次更新的主打卖点,在填写复杂Excel、网页清单等任务上已接近人类水平[4][5] - 模型在编码、长上下文推理、Agent规划、知识型工作、设计等方面实现全方位升级[6] - 在Beta阶段支持1M(100万)token的上下文,能容纳数十篇研究论文,并在大规模上下文中保持了领先的推理水平[6][27] 性能表现与基准测试 - 在金融分析和办公室任务两项测试中,Sonnet 4.6取得了SOTA(State-of-the-Art)成绩,力压历代Opus系列模型[23] - 根据基准测试表格,Sonnet 4.6在多项指标上表现接近或超越Opus系列: - Agentic computer use: 72.5% (Sonnet 4.6) vs 72.7% (Opus 4.6)[24] - Agentic financial analysis: 63.3% (Sonnet 4.6) vs 60.1% (Opus 4.6)[24] - Office tasks (GDPval-AA Elo): 1633 (Sonnet 4.6) vs 1606 (Opus 4.6)[24] - Graduate-level reasoning (GPQA Diamond): 89.9% (Sonnet 4.6) vs 91.3% (Opus 4.6)[24] - 在Vending-Bench Arena测试中,Sonnet 4.6通过前期投入产能建设、后期转向盈利的新策略,取得了明显领先的最终成绩[29][30] - 早期内测显示,在59%的场景下,用户更倾向于选择Sonnet 4.6而非Opus 4.5[25] 用户反馈与产品改进 - 内测用户对Sonnet 4.6的喜爱程度已经超过了旗舰型号Opus 4.5[11] - 用户反馈称Sonnet 4.6在指令遵循方面表现更好,更少出现过度设计和“偷懒”行为[26] - 模型生成的虚假成功声明更少,幻觉更少,多步骤任务执行更加稳定[27] - 前端代码生成能力有提升,生成的视觉输出更加精致,布局、动画和设计感更好,达到生产环境质量所需的迭代轮次减少[32][33] - 创业者Alex Finn体验后表示,在大多数Agent任务上,Sonnet 4.6的表现与Opus系列差不多好,速度更快,但价格仅为Opus的1/5[9] 定价策略与市场定位 - Sonnet 4.6定价与Sonnet 4.5保持一致,免费用户也能使用,被评价为“性价比简直高到离谱”[7][8] - Anthropic的战略路线清晰:Opus系列用于争夺技术王座和维持C端品牌认知;Sonnet系列用于占领市场,以更低的成本将高性能智能下放[39] - 该策略主要针对B端企业客户,这些客户调用量高但缺乏丰厚的token补贴,且许多场景无需Opus级别的顶级智能[38] - 高性价比的Sonnet 4.6被视为非常适合OpenClaw项目的API,消息发布后迅速吸引了相关开发者社区的关注和升级[40] 安全与风险考量 - 随着计算机操作能力提升,模型若被提示注入(prompt injection)风险会更大[17] - Anthropic强调Sonnet 4.6的安全等级相比前代Sonnet 4.5有显著改进,表现与Opus 4.6差不多[18]
性能持平价格大降80%,Anthropic 新模型杀疯了
36氪· 2026-02-18 13:52
模型发布与核心策略 - Anthropic在Claude Opus 4.6发布仅12天后,迅速推出了新的中档模型Claude Sonnet 4.6,其核心策略并非技术突破,而是以显著更低的价格提供与高端竞品齐平的性能 [2] - Sonnet 4.6的定价保持在每百万token输入3美元、输出15美元,与Sonnet 4.5相同,但在多项基准测试中接近甚至超越了价格高出五倍的Opus 4.6 [2] - 公司强调“便宜不一定就没有好货”,旨在通过高性价比模型抢占市场 [3] 性能表现与基准测试 - 在SWE-bench Verified(真实软件编码能力)测试中,Sonnet 4.6得分79.6%,几乎追平Opus 4.6的80.8%,并略微领先于OpenAI的GPT-5.2 [5] - 在代理式金融分析任务(Finance Agent v1.1)中,Sonnet 4.6以63.3%的成绩领先所有竞争对手,包括Opus 4.6的60.1%和GPT-5.2的59.0% [5] - 在办公任务的GDPval-AA Elo评分中,Sonnet 4.6达到1633分,超过Opus 4.6的1606分和GPT-5.2的1462分 [6] - 在计算机使用能力(OSWorld-Verified)测试中,Sonnet 4.6得分72.5%,显著高于前代Sonnet 4.5的61.4%,并远超GPT-5.2的38.2% [12] - 在代理式搜索(BrowseComp)测试中,Opus 4.6以84.0%领先于Sonnet 4.6的74.7% [9] - 在终端编码任务(Terminal-Bench 2.0)中,Opus 4.6得分65.4%,Sonnet 4.6为59.1% [8] - 在新颖问题解决测试(ARC-AGI-2)中,Opus 4.6得分68.8%,Sonnet 4.6为58.3% [10] - 在Vending-Bench Arena(模拟企业运营)测试中,Sonnet 4.6发展出新颖投资策略,在365天模拟结束时的余额约为5700美元,远高于Sonnet 4.5的约2100美元 [24] 成本效益与市场影响 - 对于每天需处理数百万token的企业,使用Sonnet 4.6替代高端模型可大幅节省成本,过去需旗舰模型完成的任务现可用中档模型做到 [6] - 早期用户反馈显示,原本需要花费五倍价格才能获得的能力,现可用Sonnet 4.6达到相近效果,意味着运营成本可能降至原来的五分之一 [19][20] - 数据分析平台Hex Technologies的CTO表示,公司正将大部分流量迁移至Sonnet 4.6,在除最困难任务外均看到Opus级别的性能,但成本为Sonnet级别 [20] - 云存储公司Box的CTO表示,Sonnet 4.6在真实企业文档的重度推理问答中,表现比Sonnet 4.5提高了15个百分点 [20] - Anthropic的进步引发了软件股的大规模抛售,投资者担忧AI对现有业务的潜在颠覆,Sonnet 4.6可能加剧这种市场不安 [26][27] 关键能力与安全改进 - Sonnet 4.6的计算机使用能力(通过鼠标键盘与软件交互)实现重大突破,为最广泛的企业应用场景打开了大门,例如自动操作所有可交互系统而无需定制连接器 [12][14][15] - 早期用户如保险科技公司Pace的CEO表示,Sonnet 4.6在其复杂的保险计算机使用基准测试中达到94%的成绩,是所有测试过的Claude模型中最高,并能推理失败原因并自我纠正 [16] - Anthropic表示,Sonnet 4.6在抵御提示注入攻击(恶意网页指令劫持模型)方面比Sonnet 4.5有重大改进,这对于需要浏览网页和与外部系统交互的企业代理部署至关重要 [17][18] - 模型配备了100万token的超长上下文窗口,可容纳整个代码库、法律文件或数十篇研究论文,并能进行有效推理 [21][22] 市场扩张与合作伙伴关系 - 在Sonnet 4.6发布当天,印度IT巨头Infosys宣布与Anthropic合作,构建企业级agent,将Claude模型集成到Infosys的Topaz AI平台中,服务于银行、电信和制造业 [25] - Anthropic在印度班加罗尔开设了首个印度办事处,印度目前占全球Claude使用量的约6%,仅次于美国 [25] - Anthropic将其免费层级默认升级到了Sonnet 4.6,开发者可通过Claude API直接调用 [28]
Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5
华尔街见闻· 2026-02-18 12:33
Anthropic发布Claude Sonnet 4.6模型 - 公司发布新中端模型Claude Sonnet 4.6,在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级 [1] - 新模型定价与前代Sonnet 4.5相同,为每百万token输入3美元、输出15美元,但性能已接近定价为其五倍的旗舰Opus模型(Opus定价为输入15美元、输出75美元)[1] - 对于每天进行数百万次API调用的企业部署而言,这一成本性能比的改变具有变革意义 [1] 模型性能关键提升 - **操作电脑能力**:Sonnet 4.6在标准基准测试OSWorld上得分达72.5%,在不到一年半时间内从14.9%提升至接近人类水平 [3][5] - **编程能力**:在早期测试中,开发者在约70%的情况下更偏好Sonnet 4.6而非前代Sonnet 4.5,甚至在59%的情况下更偏好它而非去年11月发布的旗舰模型Opus 4.5 [1][7] - **基准测试表现**:在SWE-bench Verified编码测试中得分为79.6%,接近Opus 4.6的80.8%;在OSWorld-Verified测试中得分为72.5%,与Opus 4.6的72.7%基本持平;在办公任务GDPval-AA Elo测试中得分1633,远超Opus 4.6的1606;在模拟财务分析测试中得分63.3%,击败了包括Opus 4.6(60.1%)在内的所有对比模型 [8] - **长期战略规划**:模型配备100万token上下文窗口(测试版),在Vending-Bench Arena模拟业务测试中,Sonnet 4.6在365天模拟结束时余额约5700美元,远高于Sonnet 4.5的约2100美元 [12][13] 企业应用与市场影响 - 模型操作电脑的能力对企业应用至关重要,能自动化缺乏API的遗留软件系统,在复杂的保险计算机使用基准测试中准确率达94% [5] - 多家企业客户反馈积极:Hex Technologies正将大部分流量转移到Sonnet 4.6;Box表示该模型在真实企业文档的重度推理问答中比Sonnet 4.5高出15个百分点;Replit称性能成本比“非凡”;Mercury的产品副总裁称其更快、更便宜且更可能一次成功 [10][12] - 公司加速进军企业市场,近期以3800亿美元估值完成300亿美元新融资,估值较去年9月翻倍,并与印度IT巨头Infosys合作,将Claude模型整合至其Topaz AI平台 [2][18] 行业竞争格局 - 此次发布是公司在不到两周内的第二次重大模型发布,紧随旗舰模型Claude Opus 4.6之后,体现了行业快节奏开发 [16] - 在多个基准测试中,Sonnet 4.6超越了竞争对手Google的Gemini 3 Pro和OpenAI的GPT-5.2,例如在智能体计算机使用测试中以72.5%对38.2%领先GPT-5.2 [19] - 公司的快速进展加剧了市场对软件行业被AI颠覆的担忧,iShares扩展科技软件行业ETF今年以来已暴跌逾20% [16][17] - OpenAI据报也在进行可能接近1000亿美元的融资谈判 [21]
刚刚,马斯克新模型撞车Claude,口碑崩了
搜狐财经· 2026-02-18 09:14
Anthropic发布Claude Sonnet 4.6模型 - 公司发布Claude Sonnet 4.6,定位为迄今为止最强大的Sonnet模型,在编码、计算机使用、长上下文推理、代理规划、知识工作和设计方面进行全面升级[7] - 模型价格维持不变,为每百万token 3美元输入/15美元输出,但性能逼近Opus级别[34] - 在与Opus 4.5的对比测试中,用户有59%的时间更偏好Sonnet 4.6,因其过度工程化更少、幻觉更少、多步骤任务执行更稳[35] - 对普通用户,Free和Pro方案的默认模型已切换为Sonnet 4.6,claude.ai和Claude Cowork同步更新[38] - 开发者API模型标识为claude-sonnet-4-6,支持自适应思考、扩展思考及上下文压缩功能[38] Sonnet 4.6性能与功能亮点 - 模型具有beta版的1M(100万)令牌上下文窗口,足以容纳完整代码库、数十篇论文或多份合同[8][37] - 计算机操作能力显著提升,在OSWorld基准测试上,Sonnet系列过去16个月持续进步,现处理复杂电子表格、填写多步骤网页表单已接近人类水平[35] - 在Vending-Bench Arena模拟企业运营评估中,Sonnet 4.6展现出长期规划能力,摸索出前期大举投资产能、后期转向盈利导向的策略,最终余额达到约6000美元,显著高于Sonnet 4.5[13][14][37] - Excel中的Claude插件同步升级,新增MCP连接器支持,对金融从业者实用[36] Sonnet 4.6基准测试表现 - 在编码(SWE-bench Verified)方面得分为79.6%,高于Sonnet 4.5的77.2%和Gemini 3 Pro (Flash)的78.0%[11] - 在计算机使用(OSWorld-Verified)方面得分为72.5%,显著高于Sonnet 4.5的61.4%[11] - 在代理工具使用(t2-bench)方面得分为91.7%,高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[11] - 在多学科推理(Humanity's Last Exam,无工具)方面得分为49.0%,显著高于Sonnet 4.5的33.6%[11] - 在代理金融分析(Finance Agent v1.1)方面得分为63.3%,高于Sonnet 4.5的54.5%和Gemini 3 Pro的55.2%[11] - 在办公任务(GDPval-AA Elo)方面得分为1633,显著高于Sonnet 4.5的1276和Gemini 3 Pro的1201[11] - 在视觉推理(MMMU-Pro,无工具)方面得分为75.6%,高于Sonnet 4.5的68.9%[11] xAI发布Grok 4.2版本候选 - 公司发布Grok 4.2版本候选(公开测试版),用户需专门选择使用[21] - 与之前版本不同,Grok 4.2能够快速学习,预计每周都会有改进并发布说明[21] - 公司创始人解释称,Grok 4.20是参数量500B的小型基础模型,处于公测阶段,其底层架构具备每周自我迭代的能力,递归式智能增长空间很大[38] - 公司创始人承诺,公测结束后,Grok 4.20的智能和速度将比Grok 4提升约一个数量级[38] - 公司创始人表示,正在逐步放弃某些基准测试,转而致力于让Grok对实际工程工作最大化地有用[32] Grok 4.2市场反馈与功能 - 整体口碑两极分化严重,部分用户期望落空,差评偏多[38] - 有用户测试后认为其在生物医学问题回答上已有很大改进,对复杂实验结果预测表现惊艳[31] - 支持并行调度4个专业智能体(Grok、Harper、Benjamin、Lucas)协同执行任务[38] - 有批评指出,与大型实验室竞争面临团队规模小和数据缺乏的挑战[30] 行业动态与竞争格局 - Claude Sonnet 4.6与Grok 4.2于同日发布,形成竞争态势[1] - 苹果公司据报正在全面提速AI穿戴设备,计划推出三款全新可穿戴AI产品,公司CEO确认正在研发“由人工智能赋能”的产品[23][24] - 其中一款产品为AI智能眼镜(代号N50,高配版),特点包括无显示屏、轻量设计、配备计算机视觉摄像头、麦克风、扬声器,支持通话、音乐、实时翻译、导航及物体识别等功能,完全依赖iPhone算力及升级版Siri与Apple Intelligence,目标2026年12月投产[26]
Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5
美股IPO· 2026-02-18 08:06
Anthropic发布Claude Sonnet 4.6模型 - 核心观点:Anthropic在发布旗舰模型Opus 4.6后不到两周,再次推出中端模型Claude Sonnet 4.6,该模型以中端价格(输入每百万token 3美元,输出每百万token 15美元)提供了接近甚至部分超越旗舰Opus 4.6(输入每百万token 15美元,输出每百万token 75美元)的性能,实现了重大的成本性能比突破,可能重塑AI行业定价格局 [1][3][12] 模型性能与基准测试 - 操作电脑能力:Sonnet 4.6在OSWorld基准测试中得分达72.5%,在16个月内提升了五倍,接近人类水平,在复杂保险计算机使用基准测试中准确率达94% [1][5][7] - 编程能力:在SWE-bench Verified编码测试中,Sonnet 4.6得分79.6%,接近Opus 4.6的80.8% [10] - 办公与财务分析能力:在办公任务GDPval-AA Elo测试中,Sonnet 4.6得分1633,超过Opus 4.6的1606;在模拟财务分析测试中,Sonnet 4.6得分63.3%,超过Opus 4.6的60.1% [10] - 多维度对比:根据提供的基准测试表格,Sonnet 4.6在多项测试中表现优于前代Sonnet 4.5,并在智能体计算机使用(72.5%)、智能体金融分析(63.3%)等关键企业应用领域超越竞争对手GPT-5.2和Gemini 3 Pro [11][20][21] 开发者与客户反馈 - 开发者偏好:早期测试中,开发者在大约70%的情况下更偏好Sonnet 4.6而非Sonnet 4.5,甚至在59%的情况下更偏好其而非前代旗舰Opus 4.5 [1][3][9] - 企业客户评价:多家企业客户,如Hex Technologies、Box、Replit、Mercury等,证实该模型在多数任务上达到Opus级别性能,且成本更低,性能成本比“非凡”,正将流量转移至Sonnet 4.6 [12][14][15] 定价策略与市场影响 - 定价优势:Sonnet 4.6定价仅为旗舰Opus模型的五分之一,为每天进行数百万次API调用的企业部署提供了变革性的成本效益,消除了在成本与性能之间的权衡 [3][12][13] - 企业市场拓展:发布正值公司加速进军企业市场,近期以3800亿美元估值完成300亿美元新融资(估值较去年9月翻倍),并与印度IT巨头Infosys合作,整合Claude模型至其Topaz AI平台 [4] 技术特性与长期能力 - 上下文窗口:配备100万token的上下文窗口(测试版),能有效进行长期推理 [15] - 战略规划能力:在Vending-Bench Arena模拟业务测试中,Sonnet 4.6自主制定并执行长期投资策略,模拟结束时余额约5700美元,远超Sonnet 4.5的约2100美元 [16] - 安全改进:在抵御计算机操作中的提示注入攻击方面,较Sonnet 4.5有重大改进 [8] 行业竞争与背景 - 快速发布节奏:此次发布是公司在12天内的第二次重大模型发布,体现了行业激烈的竞争和快节奏的开发 [18] - 行业影响:AI模型的快速进展加剧了投资者对软件行业可能被颠覆的担忧,iShares扩展科技软件行业ETF今年以来已暴跌逾20% [18] - 竞争格局:Sonnet 4.6在多个基准测试中表现优于Google的Gemini 3 Pro和OpenAI的GPT-5.2,而OpenAI据报也在进行可能近1000亿美元的融资谈判 [20][21][22]
陆家嘴财经早餐2026年2月18日星期三
Wind万得· 2026-02-18 07:19
人工智能与机器人 - 春晚热度显著带动消费级机器人市场,京东机器人搜索量环比增长超300%,订单量暴涨150% [3] - 宇树科技创始人预计今年全球人形机器人出货量至少达几万台,公司目标出货量在1-2万台,但行业仍受限于具身智能大脑等技术瓶颈,处于应用早期 [3] - 苹果公司加速向AI驱动硬件转型,正开发三款新型可穿戴设备:智能眼镜、AI挂饰及摄像头版AirPods,均围绕Siri构建并依赖人类视觉执行操作 [10] - Anthropic发布Claude Sonnet 4.6模型,在编程、操作电脑、长文本推理等方面全面升级,定价维持每百万token输入3美元、输出15美元,性能据称已接近定价高五倍的旗舰Opus模型 [10] - 月之暗面即将完成超7亿美元融资,本轮由阿里、五源、九安等老股东联合领投,腾讯参与投资,同时新一轮100-120亿美元估值的融资也已开启 [11] - 三星电子计划将PIM技术应用于LPDDR5X内存,预计今年下半年提供样品,该技术直接在内存中执行计算,有望攻克“存储墙” [11] - 印度阿达尼集团计划到2035年投资1000亿美元,建设由可再生能源供电、可支持AI的数据中心,力求打造全球最大一体化数据中心平台 [12] - 印度政府官员声称,该国计划今后数年内斥资2000亿美元建设一批数据中心,以促进人工智能产业发展 [13] 科技与互联网 - 英伟达和Meta宣布建立多年战略合作伙伴关系,Meta将部署数百万颗英伟达芯片,合作涵盖本地部署、云端和AI基础设施 [10] - 千问App推出春节活动“每日首单必减”,用户用千问一句话下单可享每天首单优惠,最低3.8元,并可叠加使用淘宝闪购、飞猪等平台原有优惠 [11] - 香港证监会向胜利数码科技旗下的虚拟资产交易平台VDX颁发运营牌照,这是继去年6月之后再度发放此类牌照 [8] - 软银已清仓所持英伟达全部股份 [16] - 美国国防部接近与Anthropic切断关系,分歧在于AI军事用途,Anthropic希望确保其AI不被用于大规模监控或开发自动部署武器 [10] 金融市场与资本运作 - 2026年以来已有143家企业完成港股IPO递表,其中120家为首次递表,截至2月16日仍有401宗新股申请在处理中 [6] - 德勤预测2026年香港新股市场或更胜去年,预计将有约160只新股融资不少于3000亿港元 [6] - 伯克希尔哈撒韦在巴菲特担任CEO的最后一季度减持了约5080万股美国银行股票和1030万股苹果股票,为连续第三个季度减持苹果,同时增持了510万股纽约时报股票 [16] - 老虎环球管理公司2025年第四季度减持了其持有的多家科技巨头股份:亚马逊减持9.3%至1000万股,台积电减持18.6%至370万股,微软减持16.4%至550万股,英伟达减持6%至1100万股,Meta Platforms减持2.4%至280万股A类股 [17] - 英国审计监管机构考虑调整会计规则,以允许在中国注册的公司赴伦敦发行全球存托凭证时遵循中国会计规则,旨在鼓励中国公司赴伦敦上市 [17] - 华纳兄弟探索公司宣布将重启与派拉蒙的交易谈判,此前派拉蒙将恶意收购报价从每股30美元提高至31美元 [17] 宏观经济与政策 - 美联储戴利表示,在达到中性利率之前,美联储大约还有75个基点的加息空间,并指出人工智能是帮助应对通胀的一种手段 [13] - 美国贸易代表表示,美国可能会“出于合规目的调整部分关税的适用方式”,但对钢铝征收的关税是成功的并将继续实施 [13] - 澳洲联储会议记录显示,若本月没有加息,通胀将持续居高不下,但尚未确定是否需要进一步收紧政策,委员们认为加息理据更为强烈 [13] - 英国2025年第四季度失业率为5.2%,为2021年1月以来最高水平,失业总人数增至约188.3万人,同比增加28.1万人 [14] - 日本财务省预测,受债务发行成本上升影响,日本2029财年债券发行规模可能达到38万亿日元,较2026财年增长28% [19] 消费与文娱 - 2026年春节档电影总票房突破15亿元,《飞驰人生3》《惊蛰无声》《熊出没·年年有熊》位列前三,带动2026年度国内电影总票房已超40亿元 [3] - 2026年春节档大年初一(2月17日),全国电影院排映场次近57万场,大幅刷新中国影史单日场次最高纪录 [3] - 2026年除夕当天,银联、网联共处理支付交易49.31亿笔,较去年除夕增长21.64%,网络支付最高峰为14.47万笔每秒,同比增长7.18%,创历史新高 [7] 行业与公司动态 - 克而瑞地产研究发布报告称,2026年可能是房企资产负债表修复的关键一年,土地市场有望迎来更多企稳信号 [7] - 必和必拓上半财年收入同比增长11%至279亿美元,股东应占利润增长28%至56亿美元,超出市场预期,其铜矿部门收益首次超过铁矿石,贡献一半以上盈利 [17] - 美国医疗设备制造商丹纳赫即将达成一项近100亿美元的交易,收购医疗科技公司迈斯莫 [18] - 高盛将日本股票的配置从“中性”上调至“超配”,将东证指数的12个月目标从3900点上调至4300点,看好与国防、关键资源、造船等题材相关的日本股票 [16] 国际市场与地缘政治 - 美国和伊朗第二轮谈判于2月17日结束,双方就一些总体问题达成一致,将在汇报磋商后继续讨论细节问题 [4] - 中国对加拿大、英国持普通护照人员实施免签政策,自2月17日起生效,政策落地首日上海浦东国际机场迎来首批享受新政的入境外籍旅客 [5] 金融市场表现 - 美国三大股指小幅收涨,道指涨0.07%报49533.19点,标普500涨0.1%报6843.22点,纳指涨0.14%报22578.38点,苹果涨超3%,英伟达涨超1% [15] - 欧洲三大股指全线上涨,德国DAX指数涨0.8%,法国CAC40指数涨0.54%,英国富时100指数涨0.79% [15] - 日本日经225指数收跌0.42%,报56566.49点,软银集团跌超5% [16] - 国际贵金属期货普遍收跌,COMEX黄金期货跌2.33%报4896.10美元/盎司,COMEX白银期货跌3.93%报73.55美元/盎司 [20] - 国际油价下跌,美油主力合约收跌2.24%报62.3美元/桶,布油主力合约跌1.85%报67.38美元/桶 [20] - 伦敦基本金属多数下跌,LME期铜跌1.46%报12663.5美元/吨,LME期镍跌1.67%报16830.0美元/吨 [20]