刚刚，马斯克新模型撞车Claude，口碑崩了

Anthropic发布Claude Sonnet 4.6模型 - 公司发布Claude Sonnet 4.6，定位为迄今为止最强大的Sonnet模型，在编码、计算机使用、长上下文推理、代理规划、知识工作和设计方面进行全面升级[7] - 模型价格维持不变，为每百万token 3美元输入/15美元输出，但性能逼近Opus级别[34] - 在与Opus 4.5的对比测试中，用户有59%的时间更偏好Sonnet 4.6，因其过度工程化更少、幻觉更少、多步骤任务执行更稳[35] - 对普通用户，Free和Pro方案的默认模型已切换为Sonnet 4.6，claude.ai和Claude Cowork同步更新[38] - 开发者API模型标识为claude-sonnet-4-6，支持自适应思考、扩展思考及上下文压缩功能[38] Sonnet 4.6性能与功能亮点 - 模型具有beta版的1M（100万）令牌上下文窗口，足以容纳完整代码库、数十篇论文或多份合同[8][37] - 计算机操作能力显著提升，在OSWorld基准测试上，Sonnet系列过去16个月持续进步，现处理复杂电子表格、填写多步骤网页表单已接近人类水平[35] - 在Vending-Bench Arena模拟企业运营评估中，Sonnet 4.6展现出长期规划能力，摸索出前期大举投资产能、后期转向盈利导向的策略，最终余额达到约6000美元，显著高于Sonnet 4.5[13][14][37] - Excel中的Claude插件同步升级，新增MCP连接器支持，对金融从业者实用[36] Sonnet 4.6基准测试表现 - 在编码（SWE-bench Verified）方面得分为79.6%，高于Sonnet 4.5的77.2%和Gemini 3 Pro (Flash)的78.0%[11] - 在计算机使用（OSWorld-Verified）方面得分为72.5%，显著高于Sonnet 4.5的61.4%[11] - 在代理工具使用（t2-bench）方面得分为91.7%，高于Sonnet 4.5的86.2%和Gemini 3 Pro的85.3%[11] - 在多学科推理（Humanity's Last Exam，无工具）方面得分为49.0%，显著高于Sonnet 4.5的33.6%[11] - 在代理金融分析（Finance Agent v1.1）方面得分为63.3%，高于Sonnet 4.5的54.5%和Gemini 3 Pro的55.2%[11] - 在办公任务（GDPval-AA Elo）方面得分为1633，显著高于Sonnet 4.5的1276和Gemini 3 Pro的1201[11] - 在视觉推理（MMMU-Pro，无工具）方面得分为75.6%，高于Sonnet 4.5的68.9%[11] xAI发布Grok 4.2版本候选 - 公司发布Grok 4.2版本候选（公开测试版），用户需专门选择使用[21] - 与之前版本不同，Grok 4.2能够快速学习，预计每周都会有改进并发布说明[21] - 公司创始人解释称，Grok 4.20是参数量500B的小型基础模型，处于公测阶段，其底层架构具备每周自我迭代的能力，递归式智能增长空间很大[38] - 公司创始人承诺，公测结束后，Grok 4.20的智能和速度将比Grok 4提升约一个数量级[38] - 公司创始人表示，正在逐步放弃某些基准测试，转而致力于让Grok对实际工程工作最大化地有用[32] Grok 4.2市场反馈与功能 - 整体口碑两极分化严重，部分用户期望落空，差评偏多[38] - 有用户测试后认为其在生物医学问题回答上已有很大改进，对复杂实验结果预测表现惊艳[31] - 支持并行调度4个专业智能体（Grok、Harper、Benjamin、Lucas）协同执行任务[38] - 有批评指出，与大型实验室竞争面临团队规模小和数据缺乏的挑战[30] 行业动态与竞争格局 - Claude Sonnet 4.6与Grok 4.2于同日发布，形成竞争态势[1] - 苹果公司据报正在全面提速AI穿戴设备，计划推出三款全新可穿戴AI产品，公司CEO确认正在研发“由人工智能赋能”的产品[23][24] - 其中一款产品为AI智能眼镜（代号N50，高配版），特点包括无显示屏、轻量设计、配备计算机视觉摄像头、麦克风、扬声器，支持通话、音乐、实时翻译、导航及物体识别等功能，完全依赖iPhone算力及升级版Siri与Apple Intelligence，目标2026年12月投产[26]