实测Claude Opus 4.7，好好的模型也开始不说人话了

Claude Opus 4.7模型发布与市场反响 - Claude Opus 4.7发布后引发高度关注，在作者监控的数十个精选信源中，有10个同时报道了该消息，远超一般热点（3-6个信源）的水平[7][8][9] - 模型已全渠道上线，包括移动端和Claude Code，并维持了1M的上下文长度[12][13][15][17] - 公司为部分用户重置了使用额度，提升了用户体验[18][19] 定价策略与成本变化 - 模型API定价与上一代保持一致，为输入$5/M，输出$25/M[23] - 公司采用了新的tokenizer，导致同样的输入内容会被切分成更多token，数量约为原来的1.0到1.35倍，具体取决于内容类型[30][32] - 尽管单价未变，但由于Token消耗量增加，用户完成相同任务的成本可能上升，账单可能增加[33][35] - 公司解释称，模型准确性的提升可能减少任务来回修改的轮次，从而在复杂任务上实现整体成本可控，但对于模型能力提升不明显的日常任务，用户成本将纯增加[36][37] 模型性能基准测试表现 - 在多项基准测试中，Claude Opus 4.7相比4.6版有显著提升，例如在Agentic coding（SWE-bench Pro）上从53.4%提升至64.3%，在Agentic coding SWE-bench Verified上从80.8%提升至87.6%[25] - 在视觉推理测试（CharXiv Reasoning）中，无工具辅助得分从84.7%提升至91.0%，有工具辅助得分从69.1%提升至82.1%[25] - 在研究生级推理（GPQA Diamond）测试中得分达到94.2%，与主要竞争对手（GPT-5.4 Pro的94.4%，Gemini 3.1 Pro的94.3%）处于同一水平[25] - 值得注意的是，官方数据显示，上一代Opus 4.6在编程相关性能上多数未超过GPT-5.4，这是公司首次在编程领域承认落后于竞争对手[25] 多模态与视觉能力突破 - 视觉能力取得巨大飞跃，在XBOW的视觉测试中，得分从4.6的54.5%大幅提升至4.7的98.5%，成功率从约一半提高到近乎全部通过[39] - 支持的图片分辨率提升至最多可处理2576像素长边的图像，约3.75兆像素，是之前Claude模型的三倍多[39] - 高分辨率图像处理能力的提升，使其能够更准确地识别复杂界面（如浏览器、后台管理系统）中的密集细节，这对于需要自主视觉理解的应用（如自动化渗透测试）至关重要[39] - 实际应用测试中，对于包含大量文字和样式的网页截图识别错误率显著降低，提升了在合同审查、财报分析、竞品界面研究等知识工作场景的实用性[41][42][43] 用户体验与交互设计能力 - 在用户体验和美学设计方面有提升，新模型更理解用户对“丝滑”交互设计的需求，与竞争对手GPT-5.4相比，后者在创作和用户体验设计上被评价为表现不佳[26] - 实际案例显示，使用Opus 4.7开发一个公司招聘网站，从描述需求到产出基本可用的页面仅耗时20分钟，其审美和动效更符合用户体验规则，开发体验优于4.6版[46][47][49][52] - 在创意产业（如影视编剧优化剧本）中，Claude被视为更优的辅助工具，而竞争对手GPT-5.4的创作能力被评价为“几乎为0”，顶级创作者倾向于选择Claude[26] 模型“人味”与语言风格的退化 - 新模型在语言风格上出现了“不说人话”的倾向，开始使用如“稳稳接住”、“根因”、“收口”等程式化、缺乏人情味的词汇，引发了部分用户的不满[55][56][57] - 用户测试发现，让模型续写文章时，其文风变得生硬，失去了原有的文字品味[59] - 社区反馈表明，这不是个别用户的感受，而是一个较为普遍的现象[59] - 这反映出一个行业趋势：模型能力在编程等可量化指标上不断进步，但在语言的自然度、创造性和“人味”上可能被系统性地牺牲，因为后者缺乏明确的商业价值和量化标准[63] 新功能与行业应用拓展 - 在模型“努力程度”档位中，于原有的high和max之间新增了“xhigh”（extra high）档位，并设为默认，以填补性能跨度[60] - 在Claude Code中引入了新的/ultrareview命令，用于深度代码审查，能仔细查找bug和设计问题，但单次使用成本较高，约为5到20美元，Pro和Max用户有3次免费试用额度[61][62] - 推出了“网络安全验证计划”，为合法的安全研究、渗透测试等场景开设了特殊申请通道，允许通过审核的从业者使用原本受限的模型能力[62] - 这一分级授权机制被视为一个重要的行业设计思路，未来可能被复用于医疗合规研究、金融模拟攻击、生物合规用药及军工研发等需要严格身份核验的产业领域[62]