实测Claude Opus 4.7,好好的模型也开始不说人话了。
数字生命卡兹克·2026-04-17 05:32

文章核心观点 Claude Opus 4.7模型发布后,在编程、视觉等多方面能力显著提升,但同时也出现了“不说人话”的倾向,引发了对于AI模型过度追求编程等可量化能力而牺牲语言审美与人文价值的担忧 [18][24][65][101][107] Claude Opus 4.7发布与市场反响 - 新模型Claude Opus 4.7于近期发布,在作者监控的数十个精选信源中,有10个信源同时报道,热度远超一般热点(通常3-6个信源)[2][3][4] - 模型已全渠道上线,包括移动端和Claude Code开发框架,并维持了1M(一百万)的上下文长度 [7][8][10][12] 定价、成本与商业模式 - 模型API定价与4.6版本保持一致,为输入每百万token 5美元,输出每百万token 25美元 [19] - 尽管单价未变,但相同任务下,4.7模型的token消耗可能比4.6版本多出最多35%,导致实际使用成本上升 [28][29][31] - 公司解释称,更高的单次token消耗可被模型准确率提升、减少修改轮次所抵消,但此逻辑更适用于其擅长的高难度复杂任务 [32][33] 性能基准评测表现 - 在多项基准测试中,Claude Opus 4.7相比4.6版本有显著提升,例如在Agentic coding (SWE-bench Verified)中从80.8%提升至87.6% [21] - 视觉能力提升巨大,在XBOW的视觉测试中,成功率从4.6版本的54.5%跃升至98.5% [36][38] - 多模态能力增强,支持处理最高2576像素长边的图片,约3.75兆像素,是之前Claude模型处理能力的三倍多 [40][41] - 官方数据显示,Claude Opus 4.6在多数性能上未跑赢GPT-5.4,这是首次承认在编程上不如对手 [21] 关键能力更新与用户体验 1. 视觉与多模态能力 - 视觉识别精度大幅提高,能准确识别复杂界面截图中的文字和细节,对知识工作者是重大加成 [44][48][49] - 高分辨率图像处理能力可应用于法律合同审查、金融图表解析、竞品界面分析等专业场景 [50][51][52][53] 2. 编程与开发体验 - 编程能力(Agentic coding)在多个基准测试中领先于GPT-5.4和Gemini 3.1 Pro [21] - 在开发微型项目(如公司招聘网站)时,审美、对需求的理解以及动效实现比4.6版本更好,开发体验更优 [56][62] 3. 创作与语言风格 - 出现明显的“不说人话”倾向,生成文本带有类似GPT-5.4的“伪人”味道和行业黑话,文字品味下降,引发了核心用户群体的强烈不满 [65][68][71][77][79] - 此前Claude模型在创作和用户体验设计上被认为远优于GPT-5.4,尤其在影视编剧等创意领域备受青睐 [22] 新增功能与行业应用 - 在Claude Code中新增了/ultrareview命令,用于深度代码审查,Pro和Max用户有3次免费试用额度 [86][87] - 推出了“网络安全验证计划”,为合法的安全研究、渗透测试等场景提供申请使用受限能力的正式通道,这被认为是进入产业应用、具有长期价值的分级授权设计 [87][89][91][92][94] - 在模型“努力程度”档位中,于high和max之间新增了xhigh档,并设为默认档位,以平衡性能与消耗 [82][83][85] 行业观察与反思 - 行业普遍存在过度追求编程等可量化Benchmark能力的现象,导致模型在语言审美、人文关怀等“无法量化”的能力上出现系统性退步 [100][102][105][106][108] - 尽管编程能力对开发者至关重要,但语言作为人类智力活动的底座,其丰富性、创造性和情感价值不应被牺牲 [103][104] - 模型能力的差异化依然存在,Claude在创作和用户体验设计上具有优势,而GPT-5.4则在解决具体产品BUG等方面表现更强 [22][23]

实测Claude Opus 4.7,好好的模型也开始不说人话了。 - Reportify