刚刚,马斯克新模型撞车Claude,口碑崩了
搜狐财经·2026-02-18 09:14

Anthropic发布Claude Sonnet 4.6模型 - 公司发布Claude Sonnet 4.6,定位为迄今为止最强大的Sonnet模型,在编码、计算机使用、长上下文推理、代理规划、知识工作和设计方面进行全面升级[7] - 模型价格维持不变,为每百万token 3美元输入/15美元输出,但性能逼近Opus级别[34] - 在与Opus 4.5的对比测试中,用户有59%的时间更偏好Sonnet 4.6,因其过度工程化更少、幻觉更少、多步骤任务执行更稳[35] - 对普通用户,Free和Pro方案的默认模型已切换为Sonnet 4.6,claude.ai和Claude Cowork同步更新[38] - 开发者API模型标识为claude-sonnet-4-6,支持自适应思考、扩展思考及上下文压缩功能[38] Sonnet 4.6性能与功能亮点 - 模型具有beta版的1M(100万)令牌上下文窗口,足以容纳完整代码库、数十篇论文或多份合同[8][37] - 计算机操作能力显著提升,在OSWorld基准测试上,Sonnet系列过去16个月持续进步,现处理复杂电子表格、填写多步骤网页表单已接近人类水平[35] - 在Vending-Bench Arena模拟企业运营评估中,Sonnet 4.6展现出长期规划能力,摸索出前期大举投资产能、后期转向盈利导向的策略,最终余额达到约6000美元,显著高于Sonnet 4.5[13][14][37] - Excel中的Claude插件同步升级,新增MCP连接器支持,对金融从业者实用[36] Sonnet 4.6基准测试表现 - 在编码(SWE-bench Verified)方面得分为79.6%,高于Sonnet 4.5的77.2%和Gemini 3 Pro (Flash)的78.0%[11] - 在计算机使用(OSWorld-Verified)方面得分为72.5%,显著高于Sonnet 4.5的61.4%[11] - 在代理工具使用(t2-bench)方面得分为91.7%,高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[11] - 在多学科推理(Humanity's Last Exam,无工具)方面得分为49.0%,显著高于Sonnet 4.5的33.6%[11] - 在代理金融分析(Finance Agent v1.1)方面得分为63.3%,高于Sonnet 4.5的54.5%和Gemini 3 Pro的55.2%[11] - 在办公任务(GDPval-AA Elo)方面得分为1633,显著高于Sonnet 4.5的1276和Gemini 3 Pro的1201[11] - 在视觉推理(MMMU-Pro,无工具)方面得分为75.6%,高于Sonnet 4.5的68.9%[11] xAI发布Grok 4.2版本候选 - 公司发布Grok 4.2版本候选(公开测试版),用户需专门选择使用[21] - 与之前版本不同,Grok 4.2能够快速学习,预计每周都会有改进并发布说明[21] - 公司创始人解释称,Grok 4.20是参数量500B的小型基础模型,处于公测阶段,其底层架构具备每周自我迭代的能力,递归式智能增长空间很大[38] - 公司创始人承诺,公测结束后,Grok 4.20的智能和速度将比Grok 4提升约一个数量级[38] - 公司创始人表示,正在逐步放弃某些基准测试,转而致力于让Grok对实际工程工作最大化地有用[32] Grok 4.2市场反馈与功能 - 整体口碑两极分化严重,部分用户期望落空,差评偏多[38] - 有用户测试后认为其在生物医学问题回答上已有很大改进,对复杂实验结果预测表现惊艳[31] - 支持并行调度4个专业智能体(Grok、Harper、Benjamin、Lucas)协同执行任务[38] - 有批评指出,与大型实验室竞争面临团队规模小和数据缺乏的挑战[30] 行业动态与竞争格局 - Claude Sonnet 4.6与Grok 4.2于同日发布,形成竞争态势[1] - 苹果公司据报正在全面提速AI穿戴设备,计划推出三款全新可穿戴AI产品,公司CEO确认正在研发“由人工智能赋能”的产品[23][24] - 其中一款产品为AI智能眼镜(代号N50,高配版),特点包括无显示屏、轻量设计、配备计算机视觉摄像头、麦克风、扬声器,支持通话、音乐、实时翻译、导航及物体识别等功能,完全依赖iPhone算力及升级版Siri与Apple Intelligence,目标2026年12月投产[26]

刚刚,马斯克新模型撞车Claude,口碑崩了 - Reportify