实测Claude Opus 4.7,好好的模型也开始不说人话了
创业邦·2026-04-17 14:14

Claude Opus 4.7模型发布与市场反响 - Claude Opus 4.7发布后引发高度关注,在作者监控的数十个精选信源中,有10个同时报道了该消息,远超一般热点(3-6个信源)的水平[7][8][9] - 模型已全渠道上线,包括移动端和Claude Code,并维持了1M的上下文长度[12][13][15][17] - 公司为部分用户重置了使用额度,提升了用户体验[18][19] 定价策略与成本变化 - 模型API定价与上一代保持一致,为输入$5/M,输出$25/M[23] - 公司采用了新的tokenizer,导致同样的输入内容会被切分成更多token,数量约为原来的1.0到1.35倍,具体取决于内容类型[30][32] - 尽管单价未变,但由于Token消耗量增加,用户完成相同任务的成本可能上升,账单可能增加[33][35] - 公司解释称,模型准确性的提升可能减少任务来回修改的轮次,从而在复杂任务上实现整体成本可控,但对于模型能力提升不明显的日常任务,用户成本将纯增加[36][37] 模型性能基准测试表现 - 在多项基准测试中,Claude Opus 4.7相比4.6版有显著提升,例如在Agentic coding(SWE-bench Pro)上从53.4%提升至64.3%,在Agentic coding SWE-bench Verified上从80.8%提升至87.6%[25] - 在视觉推理测试(CharXiv Reasoning)中,无工具辅助得分从84.7%提升至91.0%,有工具辅助得分从69.1%提升至82.1%[25] - 在研究生级推理(GPQA Diamond)测试中得分达到94.2%,与主要竞争对手(GPT-5.4 Pro的94.4%,Gemini 3.1 Pro的94.3%)处于同一水平[25] - 值得注意的是,官方数据显示,上一代Opus 4.6在编程相关性能上多数未超过GPT-5.4,这是公司首次在编程领域承认落后于竞争对手[25] 多模态与视觉能力突破 - 视觉能力取得巨大飞跃,在XBOW的视觉测试中,得分从4.6的54.5%大幅提升至4.7的98.5%,成功率从约一半提高到近乎全部通过[39] - 支持的图片分辨率提升至最多可处理2576像素长边的图像,约3.75兆像素,是之前Claude模型的三倍多[39] - 高分辨率图像处理能力的提升,使其能够更准确地识别复杂界面(如浏览器、后台管理系统)中的密集细节,这对于需要自主视觉理解的应用(如自动化渗透测试)至关重要[39] - 实际应用测试中,对于包含大量文字和样式的网页截图识别错误率显著降低,提升了在合同审查、财报分析、竞品界面研究等知识工作场景的实用性[41][42][43] 用户体验与交互设计能力 - 在用户体验和美学设计方面有提升,新模型更理解用户对“丝滑”交互设计的需求,与竞争对手GPT-5.4相比,后者在创作和用户体验设计上被评价为表现不佳[26] - 实际案例显示,使用Opus 4.7开发一个公司招聘网站,从描述需求到产出基本可用的页面仅耗时20分钟,其审美和动效更符合用户体验规则,开发体验优于4.6版[46][47][49][52] - 在创意产业(如影视编剧优化剧本)中,Claude被视为更优的辅助工具,而竞争对手GPT-5.4的创作能力被评价为“几乎为0”,顶级创作者倾向于选择Claude[26] 模型“人味”与语言风格的退化 - 新模型在语言风格上出现了“不说人话”的倾向,开始使用如“稳稳接住”、“根因”、“收口”等程式化、缺乏人情味的词汇,引发了部分用户的不满[55][56][57] - 用户测试发现,让模型续写文章时,其文风变得生硬,失去了原有的文字品味[59] - 社区反馈表明,这不是个别用户的感受,而是一个较为普遍的现象[59] - 这反映出一个行业趋势:模型能力在编程等可量化指标上不断进步,但在语言的自然度、创造性和“人味”上可能被系统性地牺牲,因为后者缺乏明确的商业价值和量化标准[63] 新功能与行业应用拓展 - 在模型“努力程度”档位中,于原有的high和max之间新增了“xhigh”(extra high)档位,并设为默认,以填补性能跨度[60] - 在Claude Code中引入了新的/ultrareview命令,用于深度代码审查,能仔细查找bug和设计问题,但单次使用成本较高,约为5到20美元,Pro和Max用户有3次免费试用额度[61][62] - 推出了“网络安全验证计划”,为合法的安全研究、渗透测试等场景开设了特殊申请通道,允许通过审核的从业者使用原本受限的模型能力[62] - 这一分级授权机制被视为一个重要的行业设计思路,未来可能被复用于医疗合规研究、金融模拟攻击、生物合规用药及军工研发等需要严格身份核验的产业领域[62]

实测Claude Opus 4.7,好好的模型也开始不说人话了 - Reportify