实测Claude Opus 4.7，好好的模型也开始不说人话了。

文章核心观点 Claude Opus 4.7模型发布后，在编程、视觉等多方面能力显著提升，但同时也出现了“不说人话”的倾向，引发了对于AI模型过度追求编程等可量化能力而牺牲语言审美与人文价值的担忧 [18][24][65][101][107] Claude Opus 4.7发布与市场反响 - 新模型Claude Opus 4.7于近期发布，在作者监控的数十个精选信源中，有10个信源同时报道，热度远超一般热点（通常3-6个信源）[2][3][4] - 模型已全渠道上线，包括移动端和Claude Code开发框架，并维持了1M（一百万）的上下文长度 [7][8][10][12] 定价、成本与商业模式 - 模型API定价与4.6版本保持一致，为输入每百万token 5美元，输出每百万token 25美元 [19] - 尽管单价未变，但相同任务下，4.7模型的token消耗可能比4.6版本多出最多35%，导致实际使用成本上升 [28][29][31] - 公司解释称，更高的单次token消耗可被模型准确率提升、减少修改轮次所抵消，但此逻辑更适用于其擅长的高难度复杂任务 [32][33] 性能基准评测表现 - 在多项基准测试中，Claude Opus 4.7相比4.6版本有显著提升，例如在Agentic coding (SWE-bench Verified)中从80.8%提升至87.6% [21] - 视觉能力提升巨大，在XBOW的视觉测试中，成功率从4.6版本的54.5%跃升至98.5% [36][38] - 多模态能力增强，支持处理最高2576像素长边的图片，约3.75兆像素，是之前Claude模型处理能力的三倍多 [40][41] - 官方数据显示，Claude Opus 4.6在多数性能上未跑赢GPT-5.4，这是首次承认在编程上不如对手 [21] 关键能力更新与用户体验 1. 视觉与多模态能力 - 视觉识别精度大幅提高，能准确识别复杂界面截图中的文字和细节，对知识工作者是重大加成 [44][48][49] - 高分辨率图像处理能力可应用于法律合同审查、金融图表解析、竞品界面分析等专业场景 [50][51][52][53] 2. 编程与开发体验 - 编程能力（Agentic coding）在多个基准测试中领先于GPT-5.4和Gemini 3.1 Pro [21] - 在开发微型项目（如公司招聘网站）时，审美、对需求的理解以及动效实现比4.6版本更好，开发体验更优 [56][62] 3. 创作与语言风格 - 出现明显的“不说人话”倾向，生成文本带有类似GPT-5.4的“伪人”味道和行业黑话，文字品味下降，引发了核心用户群体的强烈不满 [65][68][71][77][79] - 此前Claude模型在创作和用户体验设计上被认为远优于GPT-5.4，尤其在影视编剧等创意领域备受青睐 [22] 新增功能与行业应用 - 在Claude Code中新增了/ultrareview命令，用于深度代码审查，Pro和Max用户有3次免费试用额度 [86][87] - 推出了“网络安全验证计划”，为合法的安全研究、渗透测试等场景提供申请使用受限能力的正式通道，这被认为是进入产业应用、具有长期价值的分级授权设计 [87][89][91][92][94] - 在模型“努力程度”档位中，于high和max之间新增了xhigh档，并设为默认档位，以平衡性能与消耗 [82][83][85] 行业观察与反思 - 行业普遍存在过度追求编程等可量化Benchmark能力的现象，导致模型在语言审美、人文关怀等“无法量化”的能力上出现系统性退步 [100][102][105][106][108] - 尽管编程能力对开发者至关重要，但语言作为人类智力活动的底座，其丰富性、创造性和情感价值不应被牺牲 [103][104] - 模型能力的差异化依然存在，Claude在创作和用户体验设计上具有优势，而GPT-5.4则在解决具体产品BUG等方面表现更强 [22][23]