Workflow
查资料、劝老板、写周报,给上班人准备的大模型评测
晚点LatePost·2025-11-25 23:01

晚点测评 14 款大模型。 文 丨 贺乾明 编辑 丨 黄俊杰 到今年 11 月,中国有上亿人每天打开大模型助手应用,解决工作和生活中遇到的问题。与去年 4 月 我们 第一次测评大模型能力时 相比,这一数字增长超过 900%。 在大模型公司的宣传中,各种大模型能力基准测试得分持续增长。但这些得分并不直接对应日常使用 体验,尤其当你不需要研究数学的话。 过去一个多月,我们访谈了十多位工作中经常使用大模型的人,结合社交媒体上广泛传播的用例,设 定 15 个日常工作相关的问题,测评国内外 14 款大模型,包括最近上线的 GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心 5.0、 Kimi K2 Thinking 等模型。 本次评测我们不涉及编程工作、agent 和深度研究,也没有用需要基础编程的复杂处理方式,交互都 在对话框内完成。 | 公司 | 大模型助理 | 大模型 | 更新时间 | 价格 | | --- | --- | --- | --- | --- | | OpenAl | ChatGPT | GPT-5/GPT-5.1 | 2025-11 | 20 美元/月 | | Anthr ...